El equipo de investigación chino realizó un gran avance y creó con éxito el conjunto de datos de datos de IA multimodal público más grande "Infinity-MM", basado en esto, y capacitó un modelo pequeño con un excelente rendimiento Aquila-VL-2B. Este conjunto de datos contiene descripciones masivas de imágenes, datos de instrucciones visuales y datos generados por modelos de IA como GPT-4. El modelo Aquila-VL-2B ha logrado excelentes resultados en múltiples pruebas de referencia, con solo 2 mil millones de parámetros, pero tiene una puntuación alta del 54.9% en la prueba básica de MMStar, y también es sobresaliente en tareas de comprensión matemática y de imagen. Uso efectivo de datos sintéticos, el rendimiento del modelo se ha mejorado en un 2,4%. Más importante aún, el conjunto de datos y el modelo se han abierto a la comunidad de investigación, impulsando el desarrollo de IA de código abierto.
Este resultado de la investigación marca un progreso significativo en el campo de IA multimodal de China. . El proyecto Infinity-MM y el proyecto Aquila-VL-2B están disponibles, visite el enlace relevante para obtener más información.