أصدرت Tencent مؤخرًا مشروعًا يسمى ELLA، وهو عبارة عن محول فعال لنموذج اللغة الكبير يمكنه تحسين قدرة نموذج SD الحالي بشكل كبير على فهم الكلمات السريعة. بدون تدريب إضافي، يمكن دمج ELLA في نموذج نشر النص إلى الصورة لتحسين قدرة النموذج على التعامل مع محاذاة النص. يكمن جوهرها في الرابط الدلالي المدرك للوقت، والذي يمكن أن يساعد نموذج الانتشار على فهم المطالبات النصية بشكل أفضل في مراحل مختلفة وبالتالي التعامل بشكل أفضل مع المطالبات المعقدة، مثل تلك التي تحتوي على كائنات متعددة وسمات مختلفة. ومن المتوقع أن يوفر هذا الابتكار إمكانيات جديدة لتطوير نماذج تحويل النص إلى صورة وتحسين دقة وكفاءة إنشاء صور الذكاء الاصطناعي.
يعمل مشروع ELLA الذي أصدرته Tencent على حل مشكلة الفهم غير الكافي لمطالبات النص المعقدة من خلال نماذج النشر الحالية من خلال الموصلات الدلالية المدركة للخطوات الزمنية. تشير طريقة التكامل المريحة والنتائج التجريبية الممتازة إلى أن ELLA ستلعب دورًا مهمًا في مجال تحويل النص إلى صورة وتعزيز التقدم المستمر للتكنولوجيا في هذا المجال. يوفر ظهور ELLA للمستخدمين تجربة أكثر ملاءمة وكفاءة لتوليد صور الذكاء الاصطناعي، كما يوفر أيضًا اتجاهًا جديدًا للتطوير المستقبلي لتكنولوجيا الذكاء الاصطناعي.