علم محرر موقع Downcodes أن Google DeepMind ومعهد ماساتشوستس للتكنولوجيا (MIT) حققا تقدمًا كبيرًا في مجال تحويل النص إلى صورة. يُظهر نموذج الانحدار الذاتي الجديد الذي طوروه أداءً ممتازًا على مقياس معلمة يبلغ 10.5 مليار، مما يؤدي إلى تقويض فهم الصناعة لنماذج الانحدار الذاتي في مجال توليد الصور. يكمن جوهر هذا البحث في التقديم المبتكر لعناصر الكلمات المستمرة وترتيب الإنشاء العشوائي، مما يحسن بشكل كبير أداء النموذج وقابليته للتوسع ويجلب اتجاهًا جديدًا لتقنية توليد الصور.
أصدر Google DeepMind ومعهد ماساتشوستس للتكنولوجيا (MIT) مؤخرًا نتيجة بحثية مهمة. حقق نموذج الانحدار الذاتي الجديد الذي طوره فريق البحث تقدمًا كبيرًا في مجال إنشاء تحويل النص إلى صورة. يتمتع النموذج بأداء ممتاز بعد توسيعه إلى مقياس يصل إلى 10.5 مليار معلمة.
هذا البحث يفسد التصور الشائع في الصناعة. في السابق، على الرغم من أن نماذج الانحدار الذاتي سيطرت على مجال معالجة اللغة، إلا أنها كانت تعتبر أقل شأنا من نماذج الانتشار مثل Stable Diffusion وGoogle Imagen3 في توليد الصور. قام الباحثون بتحسين أداء نموذج الانحدار الذاتي وقابليته للتوسع بشكل ملحوظ من خلال تقديم عاملين رئيسيين في التصميم بشكل مبتكر: استخدام عناصر الكلمات المستمرة بدلاً من عناصر الكلمات المنفصلة، وإدخال ترتيب تم إنشاؤه عشوائيًا بدلاً من ترتيب ثابت.
فيما يتعلق بمعالجة معلومات الصور، تتمتع عناصر الكلمات المستمرة بمزايا واضحة. تعمل الرموز المميزة المنفصلة التقليدية على تشفير مناطق الصورة إلى رموز بمفردات محدودة، ويؤدي هذا النهج حتمًا إلى فقدان المعلومات، ومن الصعب حتى على النماذج الكبيرة إنشاء ميزات تفصيلية بدقة مثل العيون المتماثلة. يمكن لعناصر الكلمات المستمرة حفظ معلومات أكثر دقة وتحسين جودة إعادة بناء الصورة بشكل ملحوظ.
ابتكر فريق البحث أيضًا تسلسل توليد الصور. عادةً ما تقوم نماذج الانحدار الذاتي التقليدية بإنشاء صور بترتيب ثابت من اليسار إلى اليمين ومن الأعلى إلى الأسفل. جرب الباحثون نهجًا تسلسليًا عشوائيًا، مما يسمح للنموذج بالتنبؤ ببكسلات متعددة في أي مكان في كل خطوة. تؤدي هذه الطريقة أداءً جيدًا في المهام التي تتطلب فهمًا جيدًا للبنية العامة للصورة، وحققت مزايا كبيرة في اختبار GenEval المعياري الذي يقيس مطابقة النص والصور التي تم إنشاؤها.
الأداء الفعلي لنموذج الموائع يؤكد قيمة البحث. بعد التوسع إلى 10.5 مليار معلمة، تفوق أداء Fluid على النماذج الحالية في العديد من المعايير المهمة. تجدر الإشارة إلى أن نموذج Fluid الصغير الذي يحتوي على 369 مليون معلمة فقط قد وصل إلى درجة FID (7.23) لنموذج Parti مع 20 مليار معلمة في مجموعة بيانات MS-COCO.
تظهر نتيجة البحث هذه أن نماذج الانحدار الذاتي مثل السوائل من المرجح أن تصبح بدائل قوية لنماذج الانتشار. بالمقارنة مع نماذج الانتشار التي تتطلب تمريرات أمامية وخلفية متعددة، يحتاج Fluid فقط إلى تمريرة واحدة لإنشاء الصور، وستكون ميزة الكفاءة هذه أكثر وضوحًا مع توسيع النموذج بشكل أكبر.
يجلب هذا البحث إمكانيات جديدة في مجال توليد النص إلى صورة، كما أن ظهور نموذج السائل يمثل أيضًا ظهور نماذج الانحدار الذاتي في مجال توليد الصور. في المستقبل، يمكننا أن نتطلع إلى المزيد من التطبيقات والتحسينات بناءً على نماذج Fluid لتعزيز تقدم تكنولوجيا توليد صور الذكاء الاصطناعي. سيستمر محرر Downcodes في الاهتمام بأحدث التطورات في هذا المجال وتقديم المزيد من المحتوى المثير للقراء.