El editor de Downcodes se enteró de que el equipo de investigación científica chino lanzó el conjunto de datos multimodales a ultra gran escala Infinity-MM y el modelo de IA Aquila-VL-2B basado en su entrenamiento. Este conjunto de datos contiene descripciones masivas de imágenes, datos de instrucciones visuales, etc., y utiliza tecnología avanzada de análisis de imágenes y extracción de información para garantizar la calidad y diversidad de los datos. El modelo Aquila-VL-2B obtuvo buenos resultados en múltiples pruebas de referencia, superando sistemas similares y demostrando el progreso significativo de China en el campo de la IA multimodal. Su naturaleza de código abierto promoverá en gran medida la investigación académica y el desarrollo tecnológico.
La escala del conjunto de datos Infinity-MM es asombrosa y contiene cuatro categorías principales de datos: 10 millones de descripciones de imágenes, 24,4 millones de datos de instrucciones visuales generales, 6 millones de datos de instrucciones seleccionados de alta calidad y 3 millones de modelos de IA generados como GPT-4. datos. El equipo de investigación utiliza el modelo de IA de código abierto RAM++ para el análisis de imágenes y la extracción de información, y garantiza la calidad y diversidad de los datos generados a través de un sistema de clasificación único de seis categorías.
En términos de arquitectura de modelo, Aquila-VL-2B se basa en LLaVA-OneVision e integra el modelo de lenguaje Qwen-2.5 y la tecnología de procesamiento de imágenes SigLIP. El equipo de investigación adoptó un método de entrenamiento progresivo de cuatro etapas: comenzando con el aprendizaje básico de asociación imagen-texto, pasando gradualmente a tareas visuales generales, procesamiento de instrucciones específicas y finalmente incorporando datos sintéticos, mientras aumenta gradualmente el límite superior de resolución de la imagen.
A pesar de tener sólo una escala de parámetros de 2 mil millones, Aquila-VL-2B tuvo un buen desempeño en varias pruebas de referencia. Logró la mejor puntuación del 54,9 % en la prueba de capacidad de comprensión multimodal MMStar, e incluso alcanzó una puntuación alta del 59 % en la prueba de capacidad matemática MathVista, superando significativamente a sistemas similares. En la prueba general de comprensión de imágenes, el modelo logró excelentes resultados del 43% y 75,2% en HalllusionBench y MMBench respectivamente.
Las investigaciones han encontrado que la introducción de datos sintéticos contribuye significativamente a la mejora del rendimiento del modelo. Los experimentos muestran que sin utilizar estos datos adicionales, el rendimiento del modelo cae en una media del 2,4%. A partir de la tercera etapa, el rendimiento de Aquila-VL-2B ha superado significativamente a los modelos de referencia como InternVL2-2B y Qwen2VL-2B. Especialmente en la cuarta etapa, a medida que aumenta la cantidad de datos, la mejora del rendimiento se vuelve más obvia.
Vale la pena mencionar que el equipo de investigación ha abierto el conjunto de datos y el modelo a la comunidad de investigación, lo que promoverá en gran medida el desarrollo de la tecnología de IA multimodal. El modelo no sólo está entrenado en la GPU Nvidia A100, sino que también es compatible con chips de desarrollo propio de China, lo que demuestra una gran adaptabilidad del hardware.
El lanzamiento del modelo Aquila-VL-2B marca un gran avance en el campo de la IA multimodal en China. Su naturaleza de código abierto y su potente rendimiento promoverán el desarrollo tecnológico y la innovación de aplicaciones en este campo, inyectando nueva vitalidad al desarrollo futuro. de inteligencia artificial. El editor de Downcodes espera ver más desarrollos innovadores similares en el futuro.