حققت فرق البحث في جامعة نيويورك وجامعة كاليفورنيا في بيركلي تقدمًا كبيرًا في مجال نماذج اللغات الكبيرة متعددة الوسائط. لقد اكتشفوا عيوبًا رئيسية في النماذج الحالية في الفهم البصري واقترحوا بشكل مبتكر طريقة "خلط الميزات المتداخلة (Interleaved-MoF)". تعمل هذه التقنية المتقدمة على تحسين القدرات البصرية الأساسية للنماذج الكبيرة متعددة الوسائط بشكل فعال، مما يحقق تحسنًا كبيرًا في الأداء بنسبة 10.7% في اختبار قياس MMVP، مما يشير إلى اتجاه جديد للتطوير المستقبلي لتكنولوجيا الذكاء الاصطناعي متعدد الوسائط، وأيضًا يوفر خبرة قيمة وإلهامًا للبحث في هذا المجال.
في الآونة الأخيرة، حققت فرق البحث من جامعة نيويورك وجامعة كاليفورنيا في بيركلي اختراقات مهمة في مجال نماذج اللغات الكبيرة متعددة الوسائط واكتشفت بنجاح عيوبًا كبيرة في الفهم البصري للنماذج الموجودة. ردًا على هذه المشكلة، اقترح فريق البحث طريقة "خلط الميزات المتداخلة (Interleaved-MoF)"، والتي نجحت في تحسين القدرات البصرية الأساسية للنماذج الكبيرة متعددة الوسائط وحققت تعزيزًا للقدرة بنسبة 10.7% في معيار MMVP. يوفر هذا البحث إلهامًا مفيدًا للتطوير المستقبلي لتقنية الذكاء الاصطناعي متعدد الوسائط.
لا تحل نتيجة البحث هذه مشكلة عنق الزجاجة المتمثلة في الفهم البصري للنماذج الكبيرة متعددة الوسائط فحسب، بل توفر أيضًا أفكارًا وأساليب جديدة للتطوير المستقبلي لتكنولوجيا الذكاء الاصطناعي، وهي تستحق الدراسة المتعمقة والمرجعية من قبل الباحثين في المجالات ذات الصلة نحن نتطلع إلى المستقبل لرؤية المزيد من الابتكارات القائمة على هذا البحث.