أصدرت Zero One Wish سلسلة Yi من نماذج اللغات متعددة الوسائط Yi-VL، والتي أظهرت أداءً ممتازًا في فهم الصور والنصوص وإنشاء الحوار. حقق نموذج Yi-VL نتائج رائدة في كل من مجموعات البيانات الصينية والإنجليزية، خاصة في اختبار MMMU القياسي، حيث تفوق Yi-VL-34B على النماذج المماثلة الأخرى بدقة بلغت 41.6%، مما يدل على فهمه القوي للمعرفة متعددة التخصصات وقدراته التطبيقية. . سوف تستكشف هذه المقالة بعمق بنية وأداء وأهمية نموذج Yi-VL في المجال متعدد الوسائط.
يعد نموذج اللغة متعدد الوسائط 01Wan Yi-VL عضوًا جديدًا في عائلة نماذج سلسلة 01Wan Yi، حيث يتمتع بقدرات ممتازة في فهم الصور والنصوص وإنشاء الحوار. حقق نموذج Yi-VL نتائج رائدة في كل من مجموعة البيانات الإنجليزية MMMU ومجموعة البيانات الصينية CMMMU، مما يدل على قوته في المهام المعقدة متعددة التخصصات. تفوقت Yi-VL-34B على النماذج الكبيرة الأخرى متعددة الوسائط بدقة بلغت 41.6% في المعيار الجديد متعدد الوسائط MMMU، مما يدل على فهمها القوي للمعرفة متعددة التخصصات وقدراتها التطبيقية. يعتمد نموذج Yi-VL على بنية LLaVA مفتوحة المصدر ويتضمن Vision Transformer (ViT) ووحدة العرض ونماذج اللغات واسعة النطاق Yi-34B-Chat وYi-6B-Chat. يتم استخدام ViT لترميز الصور، وتنفذ وحدة الإسقاط القدرة على محاذاة ميزات الصورة مكانيًا مع ميزات النص، ويوفر نموذج اللغة واسع النطاق فهمًا قويًا للغة وقدرات إنشاء.يمثل ظهور نموذج Yi-VL طفرة جديدة في تكنولوجيا نماذج اللغات متعددة الوسائط، وأدائه القوي وآفاق تطبيقه الواسعة تستحق التطلع إليها. في المستقبل، مع التطور المستمر للتكنولوجيا، من المتوقع أن يلعب نموذج Yi-VL دورًا مهمًا في المزيد من المجالات وتعزيز التقدم وتطبيق تكنولوجيا الذكاء الاصطناعي.