كشفت دراسة جديدة من جامعة كاليفورنيا، بيركلي، عن تأثير تعديلات التلميحات التلقائية لنموذج اللغة الكبيرة (LLM) على أداة إنشاء الصور DALL-E3. من خلال تجربة عبر الإنترنت شملت 1891 مشاركًا، قارن فريق البحث أداء DALL-E2 وDALL-E3 وDALL-E3 المعدلة باستخدام المطالبات التلقائية في توليد الصور، وأجرى تحليلًا متعمقًا لتأثير التعديل الفوري التلقائي على جودة الصورة وتأثيرها على تجربة المستخدم. النتائج التجريبية مفاجئة وتوفر منظورًا جديدًا لتطبيق أدوات الذكاء الاصطناعي.
مؤخرًا، أظهرت دراسة من جامعة كاليفورنيا، بيركلي، أن التعديل التلقائي للإشارة بواسطة نماذج اللغة الكبيرة (LLM) يمكن أن يقلل بشكل كبير من جودة الصور التي تم إنشاؤها بواسطة DALL-E3. أجرت الدراسة تجربة عبر الإنترنت مع 1891 مشاركًا لاستكشاف تأثير إعادة الكتابة التلقائية هذه على جودة الصورة.
في التجربة، تم تقسيم المشاركين عشوائيًا إلى ثلاث مجموعات: DALL-E2، وDALL-E3، وDALL-E3 مع مراجعة سريعة تلقائية. طُلب من المشاركين كتابة عشر مطالبات متتالية تعيد إنتاج الصورة المستهدفة بأكبر قدر ممكن من الدقة. أظهرت النتائج أن DALL-E3 أفضل بالفعل من DALL-E2 في توليد الصور، كما تم تحسين درجة المطابقة بين الصورة التي تم إنشاؤها والهدف بشكل ملحوظ. ومع ذلك، عند استخدام المطالبات المعدلة تلقائيًا، انخفض أداء DALL-E3 بنسبة 58% تقريبًا. في حين أن مستخدمي DALL-E3 الذين يستخدمون إعادة الكتابة السريعة ما زالوا يتفوقون على أولئك الذين يستخدمون DALL-E2، فقد تم تقليل هذه الميزة بشكل كبير.
ووجد الباحثون أن فجوة الأداء بين DALL-E3 وDALL-E2 ترجع بشكل أساسي إلى عاملين: أحدهما هو تحسين القدرات التقنية لـ DALL-E3، والآخر هو قدرة المستخدم على التكيف في تحفيز الاستراتيجيات. على وجه الخصوص، استخدم مستخدمو DALL-E3 مطالبات أطول وأكثر تشابهًا من الناحية الدلالية، واستخدموا كلمات وصفية أكثر. لم يعرف المشاركون النموذج الذي كانوا يستخدمونه، لكن أدائهم أظهر هذه القدرة على التكيف.
ويعتقد الباحثون أنه مع استمرار تحسن النماذج، سيستمر المستخدمون في تعديل مطالباتهم للاستفادة بشكل أفضل من إمكانيات النموذج الأحدث. وهذا يوضح أنه على الرغم من أن ظهور نماذج جديدة لن يجعل المحفزات قديمة، إلا أن المحفزات لا تزال وسيلة مهمة للمستخدمين لاستكشاف إمكانات النماذج الجديدة.
تذكرنا هذه الدراسة بأن الأدوات الآلية لا تساعد المستخدمين دائمًا على تحسين الأداء وقد تحدهم بدلاً من ذلك من تحقيق الإمكانات الكاملة لنماذجهم. لذلك، عند استخدام أدوات الذكاء الاصطناعي، يجب على المستخدمين التفكير في كيفية ضبط إشاراتهم بشكل أكثر فعالية لتحقيق توليد صور أفضل.
تسليط الضوء على:
تؤدي المراجعة السريعة التلقائية إلى انخفاض جودة صورة DALL-E3 بنسبة 58% تقريبًا، مما يحد من أداء المستخدم.
وجدت التجربة أنه على الرغم من أن DALL-E3 كان أفضل من DALL-E2، إلا أن التأثير قد ضعف بعد تعديل المطالبات تلقائيًا.
يحتاج المستخدمون إلى ضبط استراتيجية المطالبة وفقًا للتقدم المحرز في النموذج لتحقيق إمكانات النموذج الجديد بشكل كامل.
بشكل عام، تؤكد هذه الدراسة على مبادرة المستخدم وقدرته على التكيف في استخدام أدوات الذكاء الاصطناعي، وتذكرنا بأنه لا يمكننا الاعتماد بشكل أعمى على الأدوات الآلية، ولكن يجب أن نستكشف بنشاط أفضل طرق التفاعل من أجل تحقيق إمكانات نماذج الذكاء الاصطناعي بشكل كامل والحصول على توليد أفضل الصور. وهذا له أهمية توجيهية مهمة لتطوير وتطبيق أدوات الذكاء الاصطناعي المستقبلية.