أصدرت جامعة بكين وفرق البحث العلمي الأخرى مؤخرًا نموذجًا مفتوح المصدر متعدد الوسائط LLaVA-o1، ويُظهر هذا النموذج مزايا كبيرة في مجال التفكير متعدد الوسائط ويُعرف بأنه أول نموذج لغة بصرية قادر على التفكير التلقائي والمنهجي أداء مشابه لـ GPT-o1. يستخدم LLaVA-o1 آلية استدلال "بطيئة التفكير" لتحليل عملية الاستدلال إلى أربع مراحل: الملخص، والتفسير البصري، والاستدلال المنطقي وتوليد الاستنتاجات، وتجنب الأخطاء الناتجة عن تبسيط عملية الاستدلال النموذجي التقليدي بشكل فعال. لقد تفوق النموذج في الأداء على العديد من المنافسين في ستة معايير صعبة وتفوق في الأداء على المقارنات مع النماذج الأكبر أو مغلقة المصدر، مع تميز إصداره ذو المعلمة 11B.
في الآونة الأخيرة، أعلنت جامعة بكين وفرق بحثية علمية أخرى عن إطلاق نموذج مفتوح المصدر متعدد الوسائط يسمى LLaVA-o1، والذي يقال إنه أول نموذج لغة بصرية قادر على التفكير التلقائي والمنهجي، مقارنة بـ GPT-o1.
يعمل النموذج بشكل جيد على ستة معايير صعبة متعددة الوسائط، حيث يتفوق إصداره ذو المعلمة 11B على المنافسين الآخرين مثل Gemini-1.5-pro وGPT-4o-mini وLlama-3.2-90B-Vision-Instruct.
يعتمد LLaVA-o1 على نموذج Llama-3.2-Vision ويعتمد آلية تفكير "بطيئة التفكير"، والتي يمكنها إجراء عمليات تفكير أكثر تعقيدًا بشكل مستقل، متجاوزة الطريقة التقليدية لسلسلة التفكير السريعة.
في معيار الاستدلال متعدد الوسائط، تفوق أداء LLaVA-o1 على نموذجه الأساسي بنسبة 8.9%. النموذج فريد من نوعه حيث أن عملية الاستدلال الخاصة به تنقسم إلى أربع مراحل: التلخيص والتفسير البصري والتفكير المنطقي وتوليد الاستنتاجات. في النماذج التقليدية، غالبًا ما تكون عملية الاستدلال بسيطة نسبيًا ويمكن أن تؤدي بسهولة إلى إجابات خاطئة، بينما يضمن LLaVA-o1 إخراجًا أكثر دقة من خلال الاستدلال المنظم متعدد الخطوات.
على سبيل المثال، عند حل المشكلة "كم عدد الكائنات المتبقية بعد طرح جميع الكرات الصغيرة الساطعة والأشياء الأرجوانية؟"، سيلخص LLaVA-o1 المشكلة أولاً، ثم يستخرج المعلومات من الصورة، ثم يقوم بالتفكير خطوة بخطوة ، وأخيرا إعطاء الإجابة. يعمل هذا النهج المرحلي على تحسين قدرات التفكير المنهجي للنموذج، مما يجعله أكثر كفاءة في التعامل مع المشكلات المعقدة.
ومن الجدير بالذكر أن LLaVA-o1 يقدم طريقة بحث شعاع على مستوى المرحلة في عملية الاستدلال. يسمح هذا النهج للنموذج بإنشاء إجابات مرشحة متعددة في كل مرحلة من مراحل الاستدلال واختيار أفضل إجابة للانتقال إلى المرحلة التالية من الاستدلال، وبالتالي تحسين جودة الاستدلال الإجمالية بشكل ملحوظ. من خلال الضبط الدقيق وبيانات التدريب المعقولة الخاضعة للإشراف، يعمل LLaVA-o1 بشكل جيد بالمقارنة مع النماذج الأكبر أو مغلقة المصدر.
لا تعمل نتائج البحث التي أجراها فريق جامعة بكين على تعزيز تطوير الذكاء الاصطناعي متعدد الوسائط فحسب، بل توفر أيضًا أفكارًا وطرقًا جديدة لنماذج فهم اللغة المرئية المستقبلية. وذكر الفريق أن الكود وأوزان التدريب المسبق ومجموعات البيانات الخاصة بـ LLaVA-o1 ستكون مفتوحة المصدر بالكامل، وهم يتطلعون إلى المزيد من الباحثين والمطورين لاستكشاف هذا النموذج المبتكر وتطبيقه بشكل مشترك.
الورقة: https://arxiv.org/abs/2411.10440
جيثب: https://github.com/PKU-YuanGroup/LLaVA-o1
تسليط الضوء على:
LLaVA-o1 هو نموذج تفكير جديد متعدد الوسائط أصدرته جامعة بكين وفرق أخرى، يتمتع بقدرات تفكير "بطيئة".
يتفوق النموذج على النموذج الأساسي بنسبة 8.9% في اختبار الاستدلال متعدد الوسائط.
يضمن LLaVA-o1 الدقة من خلال التفكير المنظم متعدد الخطوات، وسيكون مفتوح المصدر في المستقبل القريب.
سيعزز المصدر المفتوح لـ LLaVA-o1 البحث والتطوير في مجال الذكاء الاصطناعي متعدد الوسائط ويوفر أساسًا متينًا لبناء نماذج لغة مرئية أكثر ذكاءً وقوة. ونحن نتطلع إلى رؤية المزيد من إمكانات هذا النموذج في التطبيقات المستقبلية. الأوراق وروابط GitHub التي توفرها تسهل على الباحثين فهم النموذج واستخدامه بعمق.