Zero One Wish a publié le modèle de langage multimodal Yi-VL comprenant deux versions

Auteur：Eve Cole Date de mise à jour：2025-01-08 10:32:01

Zero One Wish a publié sa série Yi de modèles de langage multimodaux Yi-VL, qui ont démontré d'excellentes performances en matière de compréhension d'images et de textes et de génération de dialogues. Le modèle Yi-VL a obtenu des résultats remarquables dans les ensembles de données en chinois et en anglais, en particulier dans le test de référence MMMU, le Yi-VL-34B a surpassé d'autres modèles similaires avec une précision de 41,6 %, démontrant sa solide compréhension des connaissances interdisciplinaires et ses capacités d'application. . Cet article explorera en profondeur l'architecture, les performances et l'importance du modèle Yi-VL dans le domaine multimodal.

Le modèle de langage multimodal 01Wan Yi-VL est un nouveau membre de la famille de modèles de la série 01Wan Yi. Il possède d'excellentes capacités de compréhension d'images et de textes et de génération de dialogues. Le modèle Yi-VL a obtenu des résultats de premier plan sur l'ensemble de données anglais MMMU et l'ensemble de données chinois CMMMU, démontrant sa force dans des tâches interdisciplinaires complexes. Le Yi-VL-34B a surpassé les autres grands modèles multimodaux dans la nouvelle référence multimodale MMMU avec une précision de 41,6 %, démontrant sa solide compréhension des connaissances interdisciplinaires et ses capacités d'application. Le modèle Yi-VL est basé sur l'architecture open source LLaVA et comprend Vision Transformer (ViT), le module de projection et les modèles de langage à grande échelle Yi-34B-Chat et Yi-6B-Chat. ViT est utilisé pour le codage d'images, le module Projection implémente la possibilité d'aligner spatialement les caractéristiques de l'image avec les caractéristiques du texte, et le modèle de langage à grande échelle offre de puissantes capacités de compréhension et de génération du langage.

L'émergence du modèle Yi-VL marque une nouvelle avancée dans la technologie des modèles de langage multimodaux, et ses performances puissantes et ses vastes perspectives d'application méritent d'être attendues. À l'avenir, avec le développement continu de la technologie, le modèle Yi-VL devrait jouer un rôle important dans davantage de domaines et promouvoir le progrès et l'application de la technologie de l'intelligence artificielle.