Avec le développement rapide de la technologie de l'intelligence artificielle, l'intégration des données de vision et de texte est devenue un défi important. Les modèles traditionnels ont de nombreuses limites lorsqu'ils traitent des documents visuels structurés, ce qui affecte l'extraction et la compréhension du contenu automatique. Le Granite-Vision-3.1-2b récemment publié par IBM est un modèle de langage visuel conçu pour résoudre ce problème.
Avec le développement continu de la technologie de l'intelligence artificielle, l'intégration des données de vision et de texte est devenue un défi complexe. Les modèles traditionnels ont souvent des difficultés à analyser avec précision les documents visuels structurés tels que les tables, les graphiques, les infographies et les illustrations. Face à cette demande, IBM a récemment publié Granite-Vision-3.1-2b, un petit modèle de langage visuel conçu pour la compréhension des documents.
Granite-Vision-3.1-2b est capable d'extraire du contenu à partir d'une variété de formats visuels, y compris des tables, des graphiques et des illustrations. Le modèle est formé sur un ensemble de données soigneusement sélectionné, avec des sources de données comprenant des sources publiques et synthétiques, capable de gérer une variété de tâches liées au document. En tant que version améliorée du modèle grand langage de Granite, il intègre les deux modalités de l'image et du texte, améliorant ainsi la capacité d'interprétation du modèle et convient à une variété de scénarios d'application pratiques.
Le modèle se compose de trois composants clés: Premièrement, le codeur visuel, qui traite et code efficacement des données visuelles à l'aide de Siglip; Informations visuelles avec des informations sur le texte;
Pendant l'entraînement, Granite-Vision-3.1-2b s'appuie sur LLAVA et combine les caractéristiques des encodeurs multicouches, ainsi que la résolution de grille plus dense dans n'importe quoi. Ces améliorations améliorent la capacité du modèle à comprendre le contenu visuel détaillé, ce qui lui permet d'effectuer des tâches de documents visuels plus précisément, tels que l'analyse des tables et des graphiques, de la reconnaissance des caractères optiques (OCR) et de la réponse aux requêtes basées sur des documents.
Les résultats de l'évaluation montrent que Granite-Vision-3.1-2b a bien fonctionné dans plusieurs repères, en particulier dans la compréhension des documents. Dans la référence ChartQA, le modèle a obtenu un score de 0,86, dépassant d'autres modèles avec des paramètres dans la plage 1b-4b. Dans la référence TextVQA, le score est de 0,76, montrant une forte capacité à analyser et à répondre aux informations de texte intégrées dans les images. Ces résultats mettent en évidence le potentiel du modèle de traitement des données visuelles et texte précises dans les applications d'entreprise.
Granite-Vision-3.1-2b d'IBM représente une avancée importante dans le modèle de langage visuel et fournit une solution de compréhension de document visuelle équilibrée. Son architecture et ses méthodes de formation lui permettent d'analyser et d'analyser efficacement les données visuelles et texte complexes. Grâce à son support natif pour Transformers et VLLM, le modèle peut être adapté à une variété de cas d'utilisation et peut être déployé dans des environnements cloud tels que Colab T4, offrant aux chercheurs et aux professionnels un outil pratique pour améliorer les capacités de traitement des documents basées sur l'IA.
Modèle: https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
Points clés:
Granite-Vision-3.1-2b est un petit modèle de langage visuel spécialement conçu pour la compréhension des documents par IBM, qui peut gérer l'extraction de contenu dans plusieurs formats visuels.
Le modèle se compose de trois parties: Encodeur visuel, connecteur de langage visuel et modèle grand langage, qui améliore la compréhension des entrées complexes.
Excellent dans plusieurs repères, en particulier dans le domaine de la compréhension des documents, montrant un fort potentiel d'application d'entreprise.
Granite-Vision-3.1-2b d'IBM améliore non seulement la possibilité d'intégrer des données visuelles et de texte, mais fournit également aux entreprises des outils de traitement de documents puissants, démontrant l'énorme potentiel de la technologie d'IA dans des applications pratiques.