L'équipe de recherche chinoise a fait une percée majeure et a créé avec succès le plus grand jeu de données multimodal public public "Infinity-MM", basé sur cela, et a formé un petit modèle avec une excellente performance Aquila-VL-2b. Cet ensemble de données contient des descriptions d'images massives, des données d'instructions visuelles et des données générées par des modèles AI tels que GPT-4. Le modèle Aquila-VL-2b a obtenu d'excellents résultats dans plusieurs tests de référence, avec seulement 2 milliards de paramètres, mais a un score élevé de 54,9% dans le test de base MMSTAR, et est également exceptionnel dans les tâches de compréhension des mathématiques et de l'image. Utilisation efficace des données synthétiques, les performances du modèle ont été améliorées de 2,4%. Plus important encore, l'ensemble de données et le modèle ont été ouverts à la communauté de la recherche, ce qui stimule le développement d'une IA open source.
Ce résultat de recherche marque un progrès significatif dans le domaine de l'IA multimodal en Chine. . Le papier Infinity-MM et le projet Aquila-VL-2B sont disponibles, veuillez visiter le lien pertinent pour en savoir plus.