L'éditeur de Downcodes a appris que l'équipe de recherche scientifique chinoise avait lancé l'ensemble de données multimodales à très grande échelle Infinity-MM et le modèle d'IA Aquila-VL-2B basé sur sa formation. Cet ensemble de données contient des descriptions d'images massives, des données d'instructions visuelles, etc., et utilise une technologie avancée d'analyse d'images et d'extraction d'informations pour garantir la qualité et la diversité des données. Le modèle Aquila-VL-2B a obtenu de bons résultats lors de plusieurs tests de référence, surpassant les systèmes similaires et démontrant les progrès significatifs de la Chine dans le domaine de l'IA multimodale. Sa nature open source favorisera grandement la recherche universitaire et le développement technologique.
L'ampleur de l'ensemble de données Infinity-MM est stupéfiante, contenant quatre grandes catégories de données : 10 millions de descriptions d'images, 24,4 millions de données d'instructions visuelles générales, 6 millions de données d'instructions sélectionnées de haute qualité et 3 millions de modèles d'IA tels que GPT-4 générés. données. L’équipe de recherche utilise le modèle d’IA open source RAM++ pour l’analyse d’images et l’extraction d’informations, et garantit la qualité et la diversité des données générées grâce à un système de classification unique à six catégories.
En termes d'architecture de modèle, Aquila-VL-2B est construit sur LLaVA-OneVision et intègre le modèle de langage Qwen-2.5 et la technologie de traitement d'image SigLIP. L’équipe de recherche a adopté une méthode de formation progressive en quatre étapes : à partir de l’apprentissage de base des associations image-texte, en passant progressivement aux tâches visuelles générales, au traitement d’instructions spécifiques et enfin à l’incorporation de données synthétiques, tout en augmentant progressivement la limite supérieure de la résolution de l’image.
Bien qu’il n’ait qu’une échelle de paramètres de 2 milliards, l’Aquila-VL-2B a obtenu de bons résultats lors de divers tests de référence. Il a obtenu le meilleur score de 54,9 % au test de capacité de compréhension multimodale MMStar, et a même atteint un score élevé de 59 % au test de capacité mathématique MathVista, surpassant largement les systèmes similaires. Dans le test général de compréhension de l'image, le modèle a obtenu d'excellents résultats de 43 % et 75,2 % respectivement dans HallusionBench et MMBench.
Des recherches ont montré que l’introduction de données synthétiques contribue de manière significative à l’amélioration des performances des modèles. Les expériences montrent que sans utiliser ces données supplémentaires, les performances du modèle chutent en moyenne de 2,4 %. À partir de la troisième étape, les performances de l'Aquila-VL-2B ont largement dépassé les modèles de référence tels que InternVL2-2B et Qwen2VL-2B, en particulier dans la quatrième étape, à mesure que la quantité de données augmente, l'amélioration des performances devient plus évidente.
Il convient de mentionner que l’équipe de recherche a ouvert l’ensemble de données et le modèle à la communauté des chercheurs, ce qui favorisera grandement le développement de la technologie d’IA multimodale. Le modèle est non seulement formé sur le GPU Nvidia A100, mais prend également en charge les puces développées par la Chine, démontrant une forte adaptabilité matérielle.
Le lancement du modèle Aquila-VL-2B marque une avancée majeure dans le domaine de l'IA multimodale en Chine. Sa nature open source et ses performances puissantes favoriseront le développement technologique et l'innovation applicative dans ce domaine, injectant une nouvelle vitalité dans le développement futur. de l'intelligence artificielle. L’éditeur de Downcodes attend avec impatience d’autres développements révolutionnaires similaires à l’avenir.