В последние годы область искусственного интеллекта добилась большого прогресса в интеграции зрения и языка, особенно с появлением крупномасштабных языковых моделей, что придало новую жизнь развитию мультимодальных систем искусственного интеллекта. Однако по-прежнему существуют проблемы в построении прочных фундаментальных моделей видения и визуального языка. Чтобы решить эту задачу, исследователи из многих известных университетов и исследовательских институтов совместно разработали инновационную модель под названием InternVL, цель которой — улучшить масштаб и универсальность базовой модели зрения, чтобы лучше справляться с различными языковыми задачами моделей зрения.
В последнее время в области искусственного интеллекта основное внимание уделяется плавной интеграции зрения и языка, особенно с появлением больших языковых моделей (LLM), в которых достигнут значительный прогресс. Однако для мультимодальных систем AGI развитие базовых моделей зрения и визуального языка все еще должно наверстывать упущенное. Чтобы восполнить этот пробел, исследователи из Нанкинского университета, OpenGVLab, Шанхайской лаборатории искусственного интеллекта, Университета Гонконга, Китайского университета Гонконга, Университета Цинхуа, Университета науки и технологий Китая и SenseTime Research предложили инновационную модель — InternVL. Эта модель расширяет масштаб моделей, основанных на зрении, и адаптирует их к общим задачам визуального языка. InternVL демонстрирует свои превосходные возможности в таких разнообразных задачах, как классификация изображений и видео, поиск изображений и видеотекста, создание титров к изображениям, визуальный ответ на вопросы и мультимодальный диалог, превосходя существующие методы по 32 общим критериям визуального языка.Появление модели InternVL знаменует собой новый этап в развитии моделей визуального языка. Ее отличные результаты в многочисленных тестах производительности открывают новые направления и возможности для построения будущих мультимодальных систем искусственного интеллекта. Ожидается, что эта модель может сыграть роль в более практических приложениях в будущем и способствовать разработке и применению технологий искусственного интеллекта.