L'équipe de recherche scientifique chinoise a lancé l'ensemble de données multimodal à l'échelle de l'échelle super-échelle Infinity-MM et le modèle Aquila-VL-2b IA formé sur la base de l'ensemble de données, apportant des percées importantes sur le domaine de l'IA multimodale. L'ensemble de données Infinity-MM contient des descriptions d'images massives, des données d'instructions visuelles et des données générées par les modèles GPT-4 et utilise des modèles RAM ++ pour l'analyse d'image et un système de classification unique à six catégories pour assurer la qualité des données. Le modèle Aquila-VL-2b est basé sur l'architecture LLAVA-OneVision, intègre le modèle de langue QWEN-2.5 et la technologie de traitement d'image Siglip, adopte une méthode de formation progressive en quatre étapes, qui fonctionne parfaitement dans plusieurs tests de référence, dépassant des systèmes similaires.
L'ensemble de données Infinity-MM est incroyable et contient quatre catégories de données: 10 millions de descriptions d'images, 24,4 millions de données d'instructions visuelles générales, 6 millions de données d'instructions de haute qualité et 3 millions de modèles d'IA tels que GPT-4 le généré données. L'équipe de recherche a utilisé le modèle d'IA open source RAM ++ pour l'analyse d'image et l'extraction d'informations, et a assuré la qualité et la diversité des données générées via un système de classification unique à six catégories.
En termes d'architecture de modèle, Aquila-VL-2b est construit sur la base de Llava-oneVision et intègre le modèle de langue de langue QWEN-2.5 et la technologie de traitement d'image Siglip. L'équipe de recherche a adopté une méthode de formation progressive en quatre étapes: à partir de l'apprentissage de la corrélation de texte graphique de base, de la transition progressivement vers des tâches visuelles générales et un traitement spécifique de l'enseignement, et enfin l'intégration des données synthétiques, tout en augmentant progressivement la limite supérieure de la résolution d'image.
Malgré seulement 2 milliards de paramètres, Aquila-VL-2b a bien fonctionné dans divers tests de référence. Le meilleur score dans le test de capacité de compréhension multimodale MMSTAR a atteint 54,9%, et le score élevé du test de la capacité mathématique Mathvista a atteint 59%, dépassant considérablement des systèmes similaires. Dans le test général de compréhension de l'image, le modèle a obtenu d'excellents résultats de 43% et 75,2% dans HallusionBench et Mmbench, respectivement.
L'étude a révélé que l'introduction de données synthétiques a contribué de manière significative à l'amélioration des performances du modèle. Les expériences montrent que sans utiliser ces données supplémentaires, les performances du modèle baisseront en moyenne de 2,4%. À partir de la troisième étape, les performances d'Aquila-VL-2b ont dépassé les modèles de référence de manière significative tels que Internvl2-2b et Qwen2vl-2b, en particulier dans la quatrième étape, l'amélioration des performances est plus évidente à mesure que la quantité de données augmente.
Il convient de mentionner que l'équipe de recherche a ouvert des ensembles de données et des modèles à la communauté de recherche, qui favorisera considérablement le développement de la technologie d'IA multimodale. Ce modèle termine non seulement la formation sur le NVIDIA A100GPU, mais prend également en charge les puces chinoises auto-développées, démontrant une forte adaptabilité matérielle.
Le succès du modèle Aquila-VL-2b, ainsi que l'open source des ensembles de données et des modèles, marquent un progrès significatif dans le domaine de l'intelligence artificielle multimodale de la Chine, fournit une base solide pour le développement de l'IA futur et indique également une AI multimodale. inaugurera les perspectives de demande plus larges.