طور باحثو AI Meta AI نظامًا مبتكرًا ، MILS (LLM Solver متعدد الوسائط) ، والذي يعلم نماذج لغة كبيرة لمعالجة الصور ومقاطع الفيديو والصوت دون تدريب متخصص. يعتمد ميلز على قدرة حل المشكلات الطبيعية لنماذج اللغة بدلاً من كميات كبيرة من التدريب على البيانات ، مما يدل على مزاياه الفريدة.
يعمل MILS من خلال إقران نموذجين من الذكاء الاصطناعى لأداء حلول المهام: أحدهما "مولد" ، مسؤول عن اقتراح حلول المهام ، والآخر هو "ratingr" ، وتستخدم لتقييم فعالية الحل الذي تم إنشاؤه. يمكن أن تساعد الملاحظات التي قدمها هداف المولد على تحسين الإجابة باستمرار حتى تصل إلى نتيجة مرضية. على سبيل المثال ، في مهمة وصف الصورة ، يمكن لـ MILs تحسين أوصاف الصورة تدريجياً ، وبالتالي وصف تفاصيل الصورة بدقة على مستويات مختلفة.
يعمل MILS بشكل جيد بشكل خاص في وصف الصورة. باستخدام نموذج LLAMA-3.1-8B كمولد ونموذج المقطع كهدف ، فإن MILS قادرة على إنشاء أوصاف الصورة مماثلة لتلك الموجودة في الطرق الرئيسية الحالية ، على الرغم من أن المقطع غير مدرب على وجه التحديد لمهام وصف الصورة. بالإضافة إلى ذلك ، يعزز MILS أيضًا إمكانيات توليد النص إلى صورة من خلال صياغة المطالبات النصية ، ويمكن أن تجمع بين المطالبات التي تم إنشاؤها من الذكاء الاصطناعى مع أدوات معالجة الصور للتعامل مع مهام تحرير الصور مثل تحويل الأسلوب.
تزداد دقة وصف الصورة مع عدد الخطوات بين المولد والهدف. |
لا تقتصر إمكانات ميلز على الصور ، كما تمتد إلى حقول الفيديو والصوت. عند اختباره باستخدام مجموعة بيانات الفيديو MSR-VTT ، تتفوق MILS على النماذج الموجودة في وصف محتوى الفيديو. نظرًا لأن MILs لا تقوم بتعديل معلمات النموذج أثناء التشغيل ، يمكنه تحويل أنواع مختلفة من البيانات إلى نص قابل للقراءة ، ودعم دمج المعلومات وتحويلها من مصادر متعددة مثل الصور والصوت إلى التنسيق المطلوب ، وبالتالي جعل التطبيقات المتعددة الوسائط تفتح جديدة إمكانيات.
توضح الاختبارات أن استخدام المولدات الكبيرة ونماذج التسجيل يمكن أن يؤدي إلى نتائج أكثر دقة ، وأن زيادة عدد الحلول المحتملة يمكن أن يحسن الأداء بشكل كبير. وجد الباحثون أيضًا أن التمديد إلى نموذج لغة أكبر لا يحسن فقط جودة النتائج ، ولكن أيضًا يحسن الأداء بشكل كبير.
تتطور المناظر الطبيعية من الأوصاف الأساسية البسيطة إلى تمثيلات المناظر الطبيعية المعقدة مع تفاصيل أكثر دقة والعناصر الطبيعية. |
تتماشى هذه الاستراتيجية المبتكرة التي اعتمدتها ميلز مع الاتجاه الحالي لمجال الذكاء الاصطناعي تجاه قدرات التفكير الأكثر ذكاءً. قال فريق META أيضًا أن MILs قد تظهر إمكانات كبيرة في المستقبل في مجالات مثل معالجة البيانات ثلاثية الأبعاد ، مما يعزز تطوير الذكاء الاصطناعي متعدد الوسائط.
من خلال التطور السريع لـ GPT-4 من Openai وغيرها من بدائل المصادر المفتوحة ، مثل Meta's Lama 3.2 ، و Mistral's Pixstral ، و Deepseek's Janus Pro ، فإن أنظمة AI الناشئة هذه تسارع إلى الحياة اليومية. تطوير الذكاء الاصطناعي.