El equipo de investigación científica china lanzó el conjunto de datos multimodales de escala súper grande Infinity-MM y el modelo Ai-VL-2B AI entrenado en función del conjunto de datos, lo que provoca avances significativos en el campo de la IA multimodal. El conjunto de datos Infinity-MM contiene descripciones de imágenes masivas, datos de instrucciones visuales y datos generados por los modelos GPT-4, y utiliza modelos RAM ++ para el análisis de imágenes y un sistema único de clasificación de seis categorías para garantizar la calidad de los datos. El modelo Aquila-VL-2B se basa en la arquitectura Llava-Anevision, integra el modelo de lenguaje QWEN-2.5 y la tecnología de procesamiento de imágenes Siglip, adopta un método de entrenamiento progresivo de cuatro etapas, que funciona de manera excelente en múltiples pruebas de referencia, superando los sistemas similares.
El conjunto de datos Infinity-MM es sorprendente en escala y contiene cuatro categorías de datos: 10 millones de descripciones de imagen, 24,4 millones de datos generales de instrucciones visuales, 6 millones de datos de instrucciones de alta calidad seleccionados y 3 millones de modelos de IA como GPT-4 el generado. datos. El equipo de investigación utilizó el modelo AI de código abierto RAM ++ para el análisis de imágenes y la extracción de información, y aseguró la calidad y diversidad de los datos generados a través de un sistema de clasificación único de seis categorías.
En términos de arquitectura del modelo, Aquila-VL-2B se construye en base a Llava-Anevision e integra el modelo de lenguaje QWEN-2.5 y la tecnología de procesamiento de imágenes Siglip. El equipo de investigación adoptó un método de entrenamiento gradual de cuatro etapas: a partir del aprendizaje básico de correlación de texto gráfico, la transición gradualmente a tareas visuales generales y un procesamiento de instrucciones específicos, y finalmente integrando datos sintéticos, al tiempo que aumenta el límite superior de la resolución de la imagen.
A pesar de solo 2 mil millones de parámetros, Aquila-VL-2B funcionó bien en varias pruebas de referencia. La mejor puntuación en la prueba de capacidad de comprensión multimodal MMStar logró un 54.9%, y la puntuación alta en la prueba de matemáticas MathVista logró un 59%, superando significativamente sistemas similares. En la prueba general de comprensión de imágenes, el modelo logró excelentes resultados de 43% y 75.2% en HallusionBench y Mmbench, respectivamente.
El estudio encontró que la introducción de datos sintéticos contribuyó significativamente a la mejora del rendimiento del modelo. Los experimentos muestran que sin usar estos datos adicionales, el rendimiento del modelo disminuirá en un promedio de 2.4%. A partir de la tercera etapa, el rendimiento de Aquila-VL-2B superó significativamente modelos de referencia como Internvl2-2b y Qwen2VL-2B, especialmente en la cuarta etapa, la mejora del rendimiento es más obvia a medida que aumenta la cantidad de datos.
Vale la pena mencionar que el equipo de investigación ha abierto conjuntos de datos y modelos a la comunidad de investigación, lo que promoverá en gran medida el desarrollo de tecnología de IA multimodal. Este modelo no solo completa la capacitación en el NVIDIA A100GPU, sino que también admite chips autodesarrollados chinos, lo que demuestra una fuerte adaptabilidad de hardware.
El éxito del modelo Aquila-VL-2B, así como el código abierto de conjuntos de datos y modelos, marca un progreso significativo en el campo de inteligencia artificial multimodal de China, proporciona una base sólida para el desarrollo de la IA futura, y también indica IA multimodal. Interpretará las perspectivas de aplicaciones más amplias.