أطلق مختبر شنغهاي للذكاء الاصطناعي نموذجًا لغوي واسع النطاق ومتعدد الوسائط مفتوح المصدر - Scholar·Wanxiang InternVL2.5. وقد وصل أداءه إلى دقة تزيد عن 70% في معيار الفهم متعدد الوسائط (MMMU)، والذي يمكن مقارنته بـ. تتمتع الطرازات GPT-4o وClaude- التجارية مثل 3.5-Sonnet بأداء مماثل. يستخدم نموذج InternVL2.5 تقنية التفكير المتسلسل لإثبات الأداء القوي في اختبارات قياس الأداء المتعددة، خاصة في الاستدلال متعدد التخصصات، وفهم المستندات، واكتشاف الهلوسة متعدد الوسائط. إن طبيعة المصدر المفتوح لهذا النموذج ستعزز بشكل كبير تطوير وابتكار تكنولوجيا الذكاء الاصطناعي متعدد الوسائط.
أعلن مختبر شنغهاي للذكاء الاصطناعي مؤخرًا عن إطلاق نموذج Scholar·Wanxiang InternVL2.5. بفضل أدائه المتميز، أصبح نموذج اللغة واسع النطاق ومتعدد الوسائط مفتوح المصدر أول نموذج مفتوح المصدر يتجاوز دقة 70% على مقياس فهم الوسائط المتعددة (MMMU)، ويتنافس مع النماذج التجارية مثل GPT-4o وClaude. -3.5-السوناتة أداء مقارن.
حقق نموذج InternVL2.5 تحسنًا بنسبة 3.7 نقطة مئوية من خلال تقنية الاستدلال لسلسلة التفكير (CoT)، مما يدل على إمكانية التوسع القوية في وقت الاختبار. تم تطوير النموذج بشكل أكبر استنادًا إلى InternVL2.0، مما يؤدي إلى تحسين الأداء بشكل أكبر من خلال تعزيز استراتيجيات التدريب والاختبار وتحسين جودة البيانات. يتم إجراء بحث متعمق على أدوات التشفير المرئية ونماذج اللغة وأحجام مجموعات البيانات وتكوينات وقت الاختبار لاستكشاف العلاقة بين حجم النموذج والأداء.
يُظهر InternVL2.5 أداءً تنافسيًا في معايير متعددة، خاصة في الاستدلال متعدد التخصصات، وفهم المستندات، وفهم الصور/الفيديو المتعددة، وفهم العالم الحقيقي، واكتشاف الهلوسة متعدد الوسائط، والتأريض البصري، وقدرات متعددة اللغات، ومعالجة اللغة البحتة. وغيرها من المجالات. لا يوفر هذا الإنجاز لمجتمع المصادر المفتوحة معيارًا جديدًا لتطوير وتطبيق أنظمة الذكاء الاصطناعي متعددة الوسائط فحسب، بل يفتح أيضًا إمكانيات جديدة للبحث والتطبيقات في مجال الذكاء الاصطناعي.
يحتفظ InternVL2.5 بنفس بنية النموذج لأسلافه InternVL1.5 وInternVL2.0، ويتبع نموذج "ViT-MLP-LLM"، وينفذ تكامل InternViT-6B أو InternViT-300M الجديد المدرّب مسبقًا مع مختلف يتم دمج طلاب LLM المدربين مسبقًا بأحجام وأنواع مختلفة معًا باستخدام أجهزة عرض MLP ذات طبقتين تمت تهيئتها بشكل عشوائي. لتعزيز قابلية التوسع في المعالجة عالية الدقة، طبق فريق البحث عملية خلط البكسل لتقليل عدد الرموز المرئية إلى نصف العدد الأصلي.
وتعني طبيعة المصدر المفتوح للنموذج أنه يمكن للباحثين والمطورين الوصول بحرية إلى InternVL2.5 واستخدامه، مما سيعزز بشكل كبير تطوير وابتكار تكنولوجيا الذكاء الاصطناعي متعدد الوسائط.
رابط النموذج:
https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942
يوفر الإصدار مفتوح المصدر لـ InternVL2.5 موارد قيمة لأبحاث الذكاء الاصطناعي متعددة الوسائط، ومن المتوقع أن يؤدي أدائه الممتاز وقابليته للتوسع إلى تعزيز المزيد من الإنجازات في هذا المجال وتعزيز ولادة المزيد من التطبيقات المبتكرة. نتطلع لرؤية نتائج أكثر إثارة للدهشة بناءً على InternVL2.5 في المستقبل.