NVIDIA lance un nouveau modèle de parole visuelle NVEagle, qui peut discuter avec vous tout en regardant des images

Auteur：Eve Cole Date de mise à jour：2024-12-27 09:32:01

NVIDIA s'associe aux équipes de recherche de Georgia Tech, UMD et HKPU pour lancer un nouveau modèle de langage visuel NVEagle. Ce grand modèle de langage multimodal (MLLM) peut comprendre des images et mener des conversations en langage naturel, ce qui en fait un super assistant capable de « voir et parler ». Il améliore considérablement la compréhension des informations visuelles en convertissant les images en balises visuelles et en les combinant avec des intégrations de texte, et fonctionne bien sur plusieurs critères, comme l'obtention d'un score moyen de 85,9 sur OCRBench, surpassant de nombreux modèles leaders. NVEagle propose trois versions pour répondre aux différentes exigences des tâches, parmi lesquelles la version 13B-Chat est spécialement optimisée pour l'IA conversationnelle.

Par exemple, il peut identifier avec précision des personnes sur des images et répondre à des questions telles que « Huang Renxun ». Cependant, la construction d’un modèle aussi puissant comporte également des défis, tels que le phénomène « d’hallucination » dans le traitement des images haute résolution. L’équipe de recherche a surmonté avec succès ces difficultés et obtenu un traitement précis d’informations visuelles complexes en explorant différents encodeurs visuels et stratégies de fusion, notamment en utilisant le mécanisme Mixed Expert (MoE). NVEagle a été publié sur la plateforme Hugging Face pour la commodité des chercheurs et des développeurs. Ses excellentes performances dans des tâches telles que l'OCR, TextVQA et GQA démontrent ses puissantes capacités de compréhension visuelle et de génération de langage, établissant une nouvelle référence pour le développement de modèles de langage visuel.

Entrée du projet : https://top.aibase.com/tool/eagle

démo :https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat

Souligner:

NVEagle est un modèle de langage visuel de nouvelle génération lancé par NVIDIA, conçu pour améliorer la compréhension d'informations visuelles complexes.

Le modèle contient trois versions, adaptées à différentes tâches. La version 13B-Chat se concentre sur l'IA conversationnelle.

« Dans plusieurs tests de référence, le modèle Eagle surpasse de nombreux modèles leaders existants, démontrant des performances supérieures.

Dans l’ensemble, l’émergence de NVEagle marque une avancée majeure dans la technologie des modèles de langage visuel. Ses performances puissantes et sa facilité d’utilisation apporteront de l’innovation à de nombreux scénarios d’application et favoriseront le développement ultérieur de la technologie de l’intelligence artificielle. Nous attendons avec impatience des applications plus larges et des recherches plus approfondies sur NVEagle à l’avenir.