Cet article présente le dernier modèle d'IA haute résolution Griffon v2. Le modèle combine des repères textuels et visuels, permet un référencement flexible aux objets et améliore la perception multimodale grâce à des projecteurs de sous-échantillonnage. Dans des tâches telles que la génération d'expressions de référence, le positionnement de phrases et la compréhension d'expressions de référence, Griffon v2 surpasse les modèles experts, montrant notamment des avantages significatifs en matière de structure de coréférence visuo-linguistique, de détection de cibles et de comptage d'objets. Son émergence marque un progrès important dans la compréhension multimodale et l’application des modèles d’IA.
Le dernier modèle d'IA haute résolution, Griffon v2, combine des repères textuels et visuels pour fournir un référencement d'objets flexible. L’équipe a utilisé des projecteurs à sous-échantillonnage pour améliorer les capacités de perception multimodale. Le modèle fonctionne bien dans les tâches de génération d’expressions de citations, de localisation de phrases et de compréhension d’expressions de citations, surpassant les modèles experts. Il possède une structure de coréférence visuo-linguistique et montre une supériorité dans la détection de cibles et le comptage d'objets.
La percée du modèle Griffon v2 dans la compréhension multimodale offre des possibilités plus larges pour les futures applications d'IA. Ses performances supérieures en matière de détection de cibles et de comptage d'objets indiquent également son énorme potentiel dans les applications pratiques. On pense que des applications plus innovantes basées sur ce modèle apparaîtront à l'avenir.