En los últimos años, el campo de la inteligencia artificial ha logrado grandes avances en la integración de la visión y el lenguaje, especialmente la aparición de modelos de lenguaje a gran escala, lo que ha inyectado nueva vitalidad al desarrollo de sistemas de inteligencia artificial multimodal. Sin embargo, todavía existen desafíos en la construcción de modelos fundacionales sólidos de visión y lenguaje visual. Para afrontar este desafío, investigadores de muchas universidades e instituciones de investigación de renombre colaboraron para desarrollar un modelo innovador llamado InternVL, cuyo objetivo es mejorar la escala y la versatilidad del modelo de visión básico para afrontar mejor varios modelos de lenguaje de visión.
Recientemente, el campo de la inteligencia artificial se ha centrado en la perfecta integración de la visión y el lenguaje, especialmente con la aparición de grandes modelos de lenguaje (LLM), que ha logrado avances significativos. Sin embargo, para los sistemas AGI multimodales, el desarrollo de modelos básicos de visión y lenguaje visual aún debe ponerse al día. Para llenar este vacío, investigadores de la Universidad de Nanjing, OpenGVLab, el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Hong Kong, la Universidad China de Hong Kong, la Universidad de Tsinghua, la Universidad de Ciencia y Tecnología de China y SenseTime Research propusieron un modelo innovador: InternVL. Este modelo amplía la escala de los modelos basados en la visión y los adapta a tareas generales del lenguaje visual. InternVL demuestra sus capacidades superiores en tareas tan diversas como clasificación de imágenes y videos, recuperación de textos de imágenes y videos, subtítulos de imágenes, respuesta visual a preguntas y diálogo multimodal al superar los métodos existentes en 32 puntos de referencia generales del lenguaje visual.La aparición del modelo InternVL marca una nueva etapa en el desarrollo de modelos de lenguaje visual. Sus excelentes resultados en múltiples pruebas comparativas brindan nuevas direcciones y posibilidades para la construcción de futuros sistemas de inteligencia artificial multimodal. Se espera que este modelo pueda desempeñar un papel en aplicaciones más prácticas en el futuro y promover el desarrollo y la aplicación de tecnología de inteligencia artificial.