أصدر فريق LeCun وXie Senin نموذج اللغة المثير للإعجاب متعدد الوسائط وواسع النطاق Cambrian-1، وهو عمل مبتكر يضع الرؤية في المقام الأول. إنه ليس اختراقًا تكنولوجيًا فحسب، بل يمثل أيضًا تفكيرًا جديدًا في أبحاث التعلم متعدد الوسائط، حيث توفر طبيعته مفتوحة المصدر موارد قيمة للباحثين والمطورين. يدور تصميم Cambrian-1 حول خمسة عناصر أساسية: تعلم التمثيل المرئي، وتصميم الموصل، وبيانات الضبط الدقيق للتعليمات، واستراتيجية الضبط الدقيق للتعليمات، واختبار الأداء. وهو يؤدي أداءً جيدًا في مهام اللغة المرئية ويمكن مقارنته ببعض النماذج المميزة . ومع ذلك، أشار فريق البحث أيضًا بصراحة إلى أوجه القصور في النموذج في قدرات الحوار واستجاب بشكل فعال من خلال تحسين أساليب التدريب.
في عالم الذكاء الاصطناعي، رحبنا للتو بعضو جديد ملفت للنظر - Cambrian-1، وهو نموذج لغة كبير متعدد الوسائط (MLLM) تم إنشاؤه بشكل مشترك من قبل عمالقة الصناعة مثل LeCun وXie Saining. إن ظهور هذا النموذج لا يمثل قفزة في التكنولوجيا فحسب، بل إنه أيضًا انعكاس عميق لأبحاث التعلم متعدد الوسائط.
تضع فلسفة تصميم Cambrian-1 الرؤية في المقام الأول، وهو أمر ذو قيمة خاصة في أبحاث الذكاء الاصطناعي التي تركز على اللغة اليوم. ويذكرنا أن اللغة ليست هي الطريقة الوحيدة للإنسان لاكتساب المعرفة، وأن التجارب الحسية مثل الرؤية والسمع واللمس لها نفس القدر من الأهمية. يوفر المصدر المفتوح لـ Cambrian-1 موردًا قيمًا لجميع الباحثين والمطورين المهتمين بالتعلم متعدد الوسائط.
يدور بناء هذا النموذج حول خمسة عناصر أساسية: تعلم التمثيل المرئي، وتصميم الموصل، وضبط بيانات التعليمات، واستراتيجية ضبط التعليمات، واختبار المعايير. كل عنصر عبارة عن استكشاف متعمق لمساحة تصميم MLLM ويعكس الرؤى الفريدة لفريق البحث في المشكلات الحالية.
ومن الجدير بالذكر أن أداء Cambrian-1 في مهام اللغة المرئية مثير للإعجاب. فهو لا يتفوق على النماذج مفتوحة المصدر الأخرى فحسب، بل إنه يطابق أيضًا أفضل النماذج الخاصة في الصناعة في بعض المعايير. ويكمن وراء هذا الإنجاز التفكير المبتكر لفريق البحث فيما يتعلق بضبط التعليمات وتصميم الموصلات.
ومع ذلك، فإن مسار أبحاث Cambrian-1 لم يكن سلسًا. ووجد الباحثون أنه حتى MLLMs المدربين تدريبا جيدا قد يكون لديهم قصور في قدرات المحادثة، وهي ظاهرة تعرف باسم "ظاهرة آلة الرد الآلي". ولحل هذه المشكلة، أضافوا مطالبات النظام إلى التدريب لتشجيع النموذج على المشاركة في محادثات أكثر ثراءً.
لا يمكن فصل نجاح Cambrian-1 عن فريق البحث القوي الذي يقف وراءه. ومن بينهم، شينغبانج تونغ، وهو أحد مؤلفي الورقة، ولا يمكن تجاهل مساهمته. حاليًا، يدرس للحصول على درجة الدكتوراه في جامعة نيويورك، تحت إشراف البروفيسور يان ليكون والبروفيسور شيه ساينينغ. تغطي اهتماماته البحثية النماذج العالمية، والتعلم غير الخاضع للإشراف/الإشراف الذاتي، والنماذج التوليدية، والنماذج متعددة الوسائط.
المصدر المفتوح لـ Cambrian-1 يجلب نفسًا من الهواء النقي إلى مجتمع الذكاء الاصطناعي. فهو لا يوفر أداة تعليمية قوية متعددة الوسائط فحسب، بل يلهم الأشخاص أيضًا للتفكير بعمق في أبحاث التعلم متعدد الوسائط. مع انضمام المزيد والمزيد من الباحثين والمطورين إلى استكشاف Cambrian-1، لدينا سبب للاعتقاد بأنه سيصبح قوة مهمة في تعزيز تطوير تكنولوجيا الذكاء الاصطناعي.
عنوان المشروع: https://github.com/cambrian-mllm/cambrian
الورقة: https://arxiv.org/abs/2406.16860
لقد جلب ظهور Cambrian-1 إمكانيات جديدة في مجال الذكاء الاصطناعي متعدد الوسائط، كما أن طبيعته مفتوحة المصدر تشجع أيضًا على التعاون والابتكار على نطاق أوسع. ونحن نتطلع إلى أن يتمكن Cambrian-1 من إظهار قدراته القوية في المزيد من المجالات في المستقبل وتعزيز التقدم المستمر في تكنولوجيا الذكاء الاصطناعي.