جلبت أبحاث مختبر Tongyi's Tongyi's Alibaba تقدمًا كبيرًا في قدرة توليد الصور لنماذج الرسومات الأدبية والسيرة الذاتية. ووجدوا أن نموذج محول الانتشار الحالي يمكن أن يولد مجموعات متعددة الصور مع علاقات محددة مع كمية صغيرة فقط من التوجيه ، مما يفسد الإدراك بأن نماذج الانتشار التقليدية تتطلب تدريب بيانات ضخم لإنشاء صور عالية الجودة. جوهر هذه الدراسة هو تقنية IC-Lora ، التي تنشط بشكل فعال قدرة "تعلم السياق" للنموذج ، مما يسمح للنموذج بفهم الارتباط بين الصور وتوليد سلسلة من الصور ذات الاتساق المنطقي. لا تعمل هذه التكنولوجيا على تحسين كفاءة وجودة توليد الصور فحسب ، بل تقلل أيضًا من تكلفة التدريب النموذجي ، مما يؤدي إلى تغييرات ثورية في مجال توليد صور الذكاء الاصطناعي.
يشبه نموذج الانتشار التقليدي الطالب عن ظهر قلب ، ويعطيه IC-Lora القدرة على التعلم من بعضها البعض. من خلال ربط صور متعددة بذكاء في صورة كبيرة ودمج النص لوصفها في دعامة طويلة ، يمكّن الباحثون النموذج من معالجة معلومات الصور المتعددة في نفس الوقت وفهم العلاقة بين الصور. في الوقت نفسه ، يتم تنفيذ عملية النقل من خلال عدد صغير من مجموعات الصور عالية الجودة ، يتم الاحتفاظ بقدرة المعرفة الأصلية وقدرة التعلم السياق للنموذج. تسرد المقالة حالات تجريبية متعددة ، تُظهر بوضوح تأثيرات تطبيق IC-lora في سيناريوهات مختلفة ، مثل إنشاء صور على الطراز الهزلي ، وتوليد صور للتعبيرات أو المشاهد المختلفة بناءً على الصور الموجودة ، إلخ. أدى ظهور IC-Lora إلى تقليل تكلفة تدريب نماذج الذكاء الاصطناعى وسمحت لمزيد من الأشخاص بالمشاركة في إنشاء الذكاء الاصطناعي. عنوان المشروع: https://ali-vilab.github.io/in-context-lora-page/
لقد جلب التقدم المفروض في تقنية IC-Lora إمكانيات جديدة إلى مجال توليد صور الذكاء الاصطناعي. في المستقبل ، مع النضج المستمر وتحسين التكنولوجيا ، يمكننا أن نتطلع إلى تطبيقات أكثر إبداعًا بناءً على IC-Lora والتطبيق الأوسع ل AI في مجال الإنشاء الفني.