في السنوات الأخيرة، تطورت تكنولوجيا نماذج اللغة الكبيرة (LLM) بسرعة، وحظي نموذج اللغة المرئية، باعتباره فرعًا مهمًا، باهتمام واسع النطاق. وفي الصين على وجه الخصوص، تعمل جامعات مثل جامعة تسينغهوا وجامعة تشجيانغ على تعزيز البحث وتطوير النماذج المرئية مفتوحة المصدر، وضخ حيوية جديدة في تطوير مجال الذكاء الاصطناعي المحلي. ستركز هذه المقالة على العديد من نماذج الرؤية مفتوحة المصدر رفيعة المستوى وتحلل إمكاناتها في مجال معالجة الرؤية.
وقد روجت جامعات مثل جامعة تسينغهوا وجامعة تشجيانغ لبدائل مفتوحة المصدر لـ GPT-4V، وظهرت سلسلة من النماذج المرئية مفتوحة المصدر ذات الأداء الممتاز في الصين. ومن بينها، جذبت LLaVA وCogAgent وBakLLaVA الكثير من الاهتمام. أظهرت LLaVA قدرات قريبة من مستويات GPT-4 في الدردشة المرئية والإجابة على الأسئلة المنطقية، في حين أن CogAgent هو نموذج لغة مرئية مفتوح المصدر تم تحسينه على CogVLM. بالإضافة إلى ذلك، يعد BakLLaVA نموذجًا أساسيًا لـ Mistral7B مُحسّنًا باستخدام بنية LLaVA1.5، التي تتمتع بأداء أفضل وقدرات تجارية. تتمتع نماذج الرؤية مفتوحة المصدر هذه بإمكانيات كبيرة في مجال معالجة الرؤية.
يمثل ظهور النماذج المرئية مفتوحة المصدر مثل LLaVA وCogAgent وBakLLaVA تقدمًا كبيرًا للصين في مجال الذكاء الاصطناعي، مما يوفر أدوات وموارد قوية للأوساط الأكاديمية والصناعة، ويشير أيضًا إلى أن نماذج اللغة المرئية سيكون لها آفاق تطبيق مستقبلية أوسع. تعزيز التنمية المستدامة لتكنولوجيا الذكاء الاصطناعي، وإحداث تغييرات في جميع مناحي الحياة. كما أن المصدر المفتوح لهذه النماذج يخفض العتبة التقنية ويعزز الابتكار والتعاون على نطاق أوسع.