علم محرر Downcodes أن فريق البحث العلمي الصيني أطلق مجموعة البيانات متعددة الوسائط واسعة النطاق Infinity-MM ونموذج Aquila-VL-2B AI بناءً على تدريبه. تحتوي مجموعة البيانات هذه على أوصاف ضخمة للصور وبيانات التعليمات المرئية وما إلى ذلك، وتستخدم تقنية تحليل الصور المتقدمة واستخراج المعلومات لضمان جودة البيانات وتنوعها. كان أداء نموذج Aquila-VL-2B جيدًا في العديد من الاختبارات القياسية، متجاوزًا الأنظمة المماثلة وأظهر التقدم الكبير الذي حققته الصين في مجال الذكاء الاصطناعي متعدد الوسائط. إن طبيعتها مفتوحة المصدر ستعزز بشكل كبير البحث الأكاديمي والتطوير التكنولوجي.
إن نطاق مجموعة بيانات Infinity-MM مذهل، حيث يحتوي على أربع فئات رئيسية من البيانات: 10 ملايين وصف للصور، و24.4 مليون بيانات تعليمات مرئية عامة، و6 ملايين بيانات تعليمات مختارة عالية الجودة، و3 ملايين نموذج ذكاء اصطناعي مثل GPT-4 التي تم إنشاؤها بيانات. يستخدم فريق البحث نموذج الذكاء الاصطناعي مفتوح المصدر RAM++ لتحليل الصور واستخراج المعلومات، ويضمن جودة وتنوع البيانات الناتجة من خلال نظام تصنيف فريد من ست فئات.
فيما يتعلق ببنية النموذج، تم بناء Aquila-VL-2B على LLaVA-OneVision ويدمج نموذج اللغة Qwen-2.5 وتقنية معالجة الصور SigLIP. اعتمد فريق البحث طريقة تدريب تقدمية مكونة من أربع مراحل: بدءًا من التعلم الأساسي لربط الصورة بالنص، والانتقال تدريجيًا إلى المهام البصرية العامة، ومعالجة التعليمات المحددة، وأخيرًا دمج البيانات الاصطناعية، مع زيادة الحد الأعلى لدقة الصورة تدريجيًا.
على الرغم من أن مقياس المعلمات الخاص به يبلغ 2 مليار فقط، إلا أن أداء Aquila-VL-2B كان جيدًا في العديد من الاختبارات المعيارية. لقد حقق أفضل نتيجة بنسبة 54.9% في اختبار القدرة على الفهم متعدد الوسائط MMStar، كما وصل إلى درجة عالية قدرها 59% في اختبار القدرة الرياضية MathVista، متجاوزًا بشكل كبير الأنظمة المماثلة. في اختبار فهم الصورة العامة، حقق النموذج نتائج ممتازة بنسبة 43% و75.2% في HallusionBench وMMBench على التوالي.
لقد وجدت الأبحاث أن إدخال البيانات الاصطناعية يساهم بشكل كبير في تحسين أداء النموذج. تظهر التجارب أنه بدون استخدام هذه البيانات الإضافية، سينخفض أداء النموذج بمعدل 2.4%. بدءًا من المرحلة الثالثة، تجاوز أداء Aquila-VL-2B بشكل كبير النماذج المرجعية مثل InternVL2-2B وQwen2VL-2B، خاصة في المرحلة الرابعة، مع زيادة كمية البيانات، يصبح تحسين الأداء أكثر وضوحًا.
ومن الجدير بالذكر أن فريق البحث قد فتح مجموعة البيانات والنموذج لمجتمع البحث، مما سيعزز بشكل كبير تطوير تكنولوجيا الذكاء الاصطناعي متعدد الوسائط. لم يتم تدريب النموذج على وحدة معالجة الرسومات Nvidia A100 فحسب، بل يدعم أيضًا الرقائق المطورة ذاتيًا في الصين، مما يدل على قدرة قوية على التكيف مع الأجهزة.
يمثل إطلاق نموذج Aquila-VL-2B إنجازًا كبيرًا في مجال الذكاء الاصطناعي متعدد الوسائط في الصين. وستعزز طبيعته مفتوحة المصدر وأدائه القوي التطور التكنولوجي وابتكار التطبيقات في هذا المجال، مما يضخ حيوية جديدة في التطوير المستقبلي الذكاء الاصطناعي. يتطلع محرر Downcodes إلى المزيد من التطورات المماثلة في المستقبل.