أطلق فريق الأبحاث العلمية الصينية مجموعة بيانات متعددة الوسائط من Infinity-MM ، ونموذج Aquila-VL-2B AI المدربين على أساس مجموعة البيانات ، مما يجلب اختراقات كبيرة إلى مجال الذكاء الاصطناعي متعدد الوسائط. تحتوي مجموعة بيانات Infinity-MM على أوصاف صورة ضخمة وبيانات التعليم المرئي والبيانات التي تم إنشاؤها بواسطة نماذج GPT-4 ، وتستخدم نماذج RAM ++ لتحليل الصور ونظام تصنيف فريد من نوعه لضمان جودة البيانات. يعتمد نموذج Aquila-VL-2B على بنية LLAVA-onevision ، ويدمج نموذج اللغة QWEN-2.5 وتكنولوجيا معالجة الصور siglip ، ويعتمد طريقة تدريبية تدريجية من أربع مراحل ، والتي تؤدي بشكل ممتاز في اختبارات مرجعية متعددة ، متجاوزة أنظمة مماثلة.
مجموعة بيانات Infinity-MM مدهشة في الحجم ، وتحتوي على أربع فئات من البيانات: 10 ملايين وصف للصور ، و 24.4 مليون بيانات تعليمات بصرية عامة ، و 6 ملايين بيانات تعليمات عالية الجودة ، و 3 ملايين نماذج من الذكاء الاصطناعى مثل GPT-4 التي تم إنشاؤها بيانات. استخدم فريق البحث Open Source Model AI RAM ++ لتحليل الصور واستخراج المعلومات ، وضمان جودة وتنوع البيانات التي تم إنشاؤها من خلال نظام تصنيف فريد من نوعه.
من حيث الهندسة المعمارية النموذجية ، تم تصميم Aquila-VL-2B استنادًا إلى LLAVA-onevision ويدمج نموذج اللغة QWEN-2.5 وتقنية معالجة الصور Siglip. اعتمد فريق البحث طريقة تدريبية تدريجية من أربع مراحل: بدءًا من تعلم ارتباط النص الرسومي الأساسي ، والانتقال تدريجياً إلى المهام البصرية العامة ومعالجة التعليمات المحددة ، وأخيراً دمج البيانات الاصطناعية ، مع زيادة الحد الأعلى لدقة الصورة تدريجياً.
على الرغم من 2 مليار فقط من المعلمة ، كان أداء Aquila-VL-2B جيدًا في اختبارات القياس المختلفة. حققت أفضل درجة في اختبار القدرة على الفهم متعدد الوسائط MMSTAR 54.9 ٪ ، وحققت الدرجة العالية في اختبار قدرة الرياضيات Mathvista 59 ٪ ، متجاوزة بشكل كبير أنظمة مماثلة. في اختبار فهم الصور العام ، حقق النموذج نتائج ممتازة قدرها 43 ٪ و 75.2 ٪ في HallusionBench و MMBench ، على التوالي.
وجدت الدراسة أن إدخال البيانات الاصطناعية ساهم بشكل كبير في تحسين أداء النموذج. تبين التجارب أنه بدون استخدام هذه البيانات الإضافية ، سينخفض أداء النموذج بنسبة 2.4 ٪ في المتوسط. بدءًا من المرحلة الثالثة ، تجاوز أداء Aquila-VL-2B بشكل كبير النماذج المرجعية مثل InternVL2-2B و QWEN2VL-2B ، وخاصة في المرحلة الرابعة ، يكون تحسين الأداء أكثر وضوحًا مع زيادة كمية البيانات.
تجدر الإشارة إلى أن فريق الأبحاث قد فتح مجموعات البيانات ونماذج لمجتمع الأبحاث ، والتي ستعزز بشكل كبير تطوير تقنية AI متعددة الوسائط. لا يكمل هذا النموذج التدريب على NVIDIA A100GPU فحسب ، بل يدعم أيضًا الرقائق الصينية التي تم تطويرها ذاتيًا ، مما يدل على قدرة قوية على التكيف.
يوفر نجاح نموذج Aquila-VL-2B ، بالإضافة إلى المصدر المفتوح لمجموعات البيانات والنماذج ، تقدمًا كبيرًا في مجال الذكاء الاصطناعي متعدد الوسائط في الصين ، ويشير أيضًا إلى تقنية AI متعددة الوسائط سوف تدخل في آفاق التطبيق الأوسع.