في السنوات الأخيرة، حقق مجال الذكاء الاصطناعي تقدما كبيرا في تكامل الرؤية واللغة، وخاصة ظهور نماذج لغوية واسعة النطاق، مما ضخ حيوية جديدة في تطوير أنظمة الذكاء الاصطناعي متعددة الوسائط. ومع ذلك، لا تزال هناك تحديات في بناء نماذج أساسية قوية للرؤية واللغة البصرية. ومن أجل مواجهة هذا التحدي، تعاون باحثون من العديد من الجامعات والمؤسسات البحثية المعروفة لتطوير نموذج مبتكر يسمى InternVL، والذي يهدف إلى تحسين حجم وتنوع نموذج الرؤية الأساسي للتعامل بشكل أفضل مع مهام لغة الرؤية المختلفة.
في الآونة الأخيرة، أصبح مجال الذكاء الاصطناعي يركز على التكامل السلس بين الرؤية واللغة، خاصة مع ظهور نماذج لغوية كبيرة (LLMs)، والتي حققت تقدمًا كبيرًا. ومع ذلك، بالنسبة لأنظمة الذكاء الاصطناعي العام متعددة الوسائط، لا يزال تطوير النماذج الأساسية للرؤية واللغة المرئية بحاجة إلى اللحاق بالركب. ولسد هذه الفجوة، اقترح باحثون من جامعة نانجينغ، وOpenGVLab، ومختبر شنغهاي للذكاء الاصطناعي، وجامعة هونغ كونغ، والجامعة الصينية في هونغ كونغ، وجامعة تسينغهوا، وجامعة العلوم والتكنولوجيا في الصين، وأبحاث SenseTime نموذجًا مبتكرًا - InternVL. يعمل هذا النموذج على توسيع نطاق النماذج القائمة على الرؤية وتكييفها مع المهام اللغوية المرئية العامة. تُظهر InternVL قدراتها الفائقة في مهام متنوعة مثل تصنيف الصور والفيديو، واسترجاع نصوص الصور والفيديو، والتعليق على الصور، والإجابة المرئية على الأسئلة، والحوار متعدد الوسائط من خلال التفوق على الأساليب الحالية في 32 معيارًا عامًا للغة المرئية.يمثل ظهور نموذج InternVL مرحلة جديدة في تطوير نماذج اللغة المرئية، وتوفر نتائجه الممتازة في الاختبارات المعيارية المتعددة اتجاهات وإمكانيات جديدة لبناء أنظمة ذكاء اصطناعي متعددة الوسائط في المستقبل. ومن المتوقع أن يلعب هذا النموذج دورًا في المزيد من التطبيقات العملية في المستقبل وتعزيز تطوير وتطبيق تكنولوجيا الذكاء الاصطناعي.