في السنوات الأخيرة، تقدمت تقنية الرسم بالذكاء الاصطناعي بسرعة، ولكن لا تزال هناك بعض المشاهد التي تبدو بسيطة والتي يصعب تقديمها بشكل مثالي. وجد فريق بحث من جامعة شنغهاي جياو تونغ أن الذكاء الاصطناعي فشل مرارًا وتكرارًا في إنشاء مشهد "كوكاكولا مثلجة في كوب شاي"، مما أثار الاهتمام الأكاديمي حول مشكلة عدم محاذاة النص والصورة. لقد بحث الفريق في "مشكلة فنجان الشاي" واقترح طريقة جديدة تسمى خليط خبراء المفاهيم (MoCE)، والتي تحل بشكل فعال مشكلة عدم تطابق المفهوم الخفي في توليد صور الذكاء الاصطناعي.
في مجال الذكاء الاصطناعي، حققت قدرات الرسامين الذين يعتمدون على الذكاء الاصطناعي اختراقات وتحسينات مستمرة. ومع ذلك، حتى نماذج توليد الصور ذات الذكاء الاصطناعي الأكثر تقدمًا يمكن أن تواجه بعض المهام التي تبدو بسيطة. مؤخرًا، اكتشف تشاو جونتو، طالب الدكتوراه في جامعة شنغهاي جياو تونغ، وفريقه في بحثهم أن الذكاء الاصطناعي أظهر صعوبات غير متوقعة عند إنشاء مشهد "الآيس كولا في فنجان شاي".
لقد جذبت هذه الظاهرة انتباه الأوساط الأكاديمية وتسمى اختلال صورة النص. في أكتوبر 2023، عندما كان نموذج توليد الصور بالذكاء الاصطناعي في طور الظهور للتو، جربه تشاو جونتو وفريقه ووجدوا أنه عندما قام رسامو الذكاء الاصطناعي ببناء هذا المشهد، كانوا غالبًا ما يرسمون كوبًا شفافًا مملوءًا بفحم الكوك المثلج بدلاً من كوب الشاي. وحتى عند تجربتها في يوليو 2024 باستخدام أحدث النماذج، ظلت النتائج غير مرضية.
ومن أجل استكشاف هذه المسألة بعمق، قام الفريق البحثي للبروفيسور وانغ دي تشيوان من جامعة شنغهاي جياو تونغ بتصنيف هذه المشكلة على أنها تحتوي على متغيرات مخفية في الورقة القادمة "ضائعة في الترجمة: اختلال المفهوم الكامن في نماذج نشر النص إلى الصورة" Misalignment مشكلة (اختلال المفهوم الكامن، ويشار إليها باسم LC-Mis). لقد صمموا نظامًا يعتمد على نماذج اللغة الكبيرة (LLMs) لاستخدام التفكير البشري الموجود في LLMs للمساعدة في جمع أزواج المفاهيم ذات المشكلات المماثلة بسرعة.
اقترح فريق البحث طريقة تسمى خليط خبراء المفاهيم (MoCE)، والتي تدمج قواعد الرسم المتسلسل في عملية أخذ العينات متعددة الخطوات لنماذج الانتشار، ونجحت في استعادة فنجان الشاي المفقود.
فهو يقسم عملية أخذ العينات بأكملها إلى مرحلتين: توفر المرحلة الأولى فقط المفاهيم التي يتم التغاضي عنها بسهولة، وتستخدم المرحلة الثانية مطالبات نصية كاملة. باستخدام هذا النهج، تستطيع MoCE التحكم بشكل أكثر دقة في المحاذاة بين النص والصور عند إنشاء الصور.
تقلل طريقة MoCE بشكل كبير من نسبة أزواج مفهوم LC-Mis من المستوى 5، بل وتتجاوز Dall・E3 (إصدار أكتوبر 2023) الذي يتطلب قدرًا كبيرًا من تكاليف التعليقات التوضيحية للبيانات إلى حد ما.
بالإضافة إلى ذلك، وجد فريق البحث أيضًا أن مؤشرات التقييم الآلي الحالية بها عيوب واضحة عند مواجهة هذا النوع من المشكلات الجديدة. على سبيل المثال، تعطي بعض مؤشرات التقييم درجة أقل لكولا مثلج في كوب شاي، ولكنها تعطي درجة أعلى لكولا مثلج في كوب شفاف. يشير هذا إلى أنه حتى الأدوات نفسها المستخدمة في تقييم أداء الذكاء الاصطناعي يمكن أن يكون لها تحيزات وقيود.
يخطط الباحثون لاستكشاف سيناريوهات LC-Mis الأكثر تعقيدًا في العمل المستقبلي وتطوير خوارزميات بحث قابلة للتعلم لتقليل عدد التكرارات. كما يخططون أيضًا لتوسيع أنواع النماذج وإصدارات النماذج وأنواع العينات المستخدمة في مجموعة البيانات، ومواصلة التكرار على خوارزمية جمع مجموعة البيانات لتعزيز مجموعة البيانات وتوسيعها.
لا يوفر هذا البحث منظورًا جديدًا لفهم قيود الذكاء الاصطناعي في توليد الصور فحسب، بل يوفر أيضًا أفكارًا وطرقًا جديدة لتحسين قدرات الذكاء الاصطناعي في توليد الصور. مع استمرار تقدم التكنولوجيا، نتوقع أن يحقق الذكاء الاصطناعي اختراقات أكبر في فهم الإبداع البشري وإعادة إنتاجه.
عنوان المشروع: https://lcmis.github.io/
الورقة: https://arxiv.org/pdf/2408.00230
تكشف هذه الدراسة حول "مشكلة فنجان الشاي" في توليد صور الذكاء الاصطناعي القيود المفروضة على نماذج الذكاء الاصطناعي في التعامل مع المفاهيم الدقيقة وتوفر أيضًا مرجعًا قيمًا لاتجاه التطوير المستقبلي لتكنولوجيا الذكاء الاصطناعي. إن طريقة MoCE التي اقترحها فريق البحث والتفكير في مؤشرات التقييم الحالية ستدفع تكنولوجيا توليد الصور بالذكاء الاصطناعي إلى المستوى التالي.