Nos últimos anos, o campo da inteligência artificial tem feito grandes progressos na integração da visão e da linguagem, especialmente o surgimento de modelos de linguagem em grande escala, o que injectou uma nova vitalidade no desenvolvimento de sistemas multimodais de inteligência artificial. No entanto, ainda existem desafios na construção de modelos fundamentais sólidos de visão e linguagem visual. Para enfrentar este desafio, investigadores de muitas universidades e instituições de investigação conhecidas colaboraram para desenvolver um modelo inovador denominado InternVL, que visa melhorar a escala e a versatilidade do modelo de visão básico para melhor lidar com vários modelos de linguagem de visão.
Recentemente, o campo da inteligência artificial tem-se concentrado na integração perfeita da visão e da linguagem, especialmente com o surgimento de grandes modelos de linguagem (LLMs), que registaram progressos significativos. No entanto, para sistemas AGI multimodais, o desenvolvimento de modelos básicos de visão e linguagem visual ainda precisa ser atualizado. Para preencher esta lacuna, pesquisadores da Universidade de Nanjing, OpenGVLab, Laboratório de Inteligência Artificial de Xangai, Universidade de Hong Kong, Universidade Chinesa de Hong Kong, Universidade de Tsinghua, Universidade de Ciência e Tecnologia da China e SenseTime Research propuseram um modelo inovador - InternVL. Este modelo expande a escala dos modelos baseados em visão e os adapta a tarefas gerais de linguagem visual. O InternVL demonstra suas capacidades superiores em tarefas tão diversas como classificação de imagens e vídeos, recuperação de texto de imagens e vídeos, legendagem de imagens, resposta visual a perguntas e diálogo multimodal, superando os métodos existentes em 32 benchmarks gerais de linguagem visual.O surgimento do modelo InternVL marca uma nova etapa no desenvolvimento de modelos de linguagem visual. Seus excelentes resultados em múltiplos testes de benchmark fornecem novos rumos e possibilidades para a construção de futuros sistemas de inteligência artificial multimodais. Espera-se que este modelo possa desempenhar um papel em aplicações mais práticas no futuro e promover o desenvolvimento e aplicação de tecnologia de inteligência artificial.