Mistral AI a étonnamment publié le premier grand modèle multimodal open source Pixtral12B. Son échelle de 12 milliards de paramètres et sa puissante capacité à traiter les images et le texte sont comparables à la série Claude d'Anthropic et au GPT-4 d'OpenAI. Ce qui est encore plus frappant, c’est que Mistral AI divulgue directement les poids des modèles et propose même des téléchargements par lien magnétique, ce qui abaisse considérablement le seuil d’utilisation et permet aux développeurs et aux chercheurs de démarrer rapidement. La taille du Pixtral12B n'est que de 23,64 Go. Il est léger parmi les modèles multimodaux, a une faible consommation d'énergie, est facile à déployer et peut être téléchargé en quelques minutes sur un réseau haut débit.
Mistral AI a une nouvelle fois choqué le monde de l'IA et a lancé Pixtral12B, le premier grand modèle multimodal open source. Ce modèle, capable de traiter simultanément des images et du texte, est non seulement technologiquement avancé, mais attire également l'attention du plus grand nombre grâce à son ouverture. Mistral AI publie directement les poids des modèles en ligne et propose même des liens magnétiques de manière réfléchie.
Le point fort du Pixtral12B n'est pas seulement ses fonctions puissantes, mais aussi son design exquis. La taille totale du modèle n'est que de 23,64 Go, ce qui en fait un lecteur léger parmi les modèles multimodaux. Cette fonctionnalité réduit considérablement la consommation d'énergie et le seuil de déploiement, permettant à davantage de développeurs et de chercheurs de se lancer facilement. Il est rapporté que les utilisateurs disposant d'une connexion Internet haut débit peuvent terminer le téléchargement en quelques minutes seulement, améliorant considérablement l'accessibilité du modèle.
Dernier chef-d'œuvre de Mistral AI, Pixtral12B est développé sur la base de son modèle de texte Nemo12B et compte 12 milliards de paramètres. Ses capacités sont comparables à celles de modèles multimodaux bien connus tels que la série Claude d'Anthropic et le GPT-4 d'OpenAI, et peuvent comprendre et répondre à une variété de questions complexes liées à l'image.
En termes de spécifications techniques, Pixtral12B est tout aussi impressionnant : structure de réseau à 40 couches, 14 336 dimensions cachées, 32 têtes d'attention et un encodeur visuel dédié de 400 Mo prenant en charge le traitement d'images de résolution 1 024 x 1 024.
Ce qui mérite d'être mentionné, c'est que Pixtral12B a obtenu de bons résultats dans un certain nombre de tests de référence faisant autorité. Sur des plateformes telles que MMMU, Mathvista, ChartQA et DocVQA, ses résultats ont dépassé de nombreux modèles multimodaux bien connus, notamment Phi-3 et Qwen-27B, prouvant pleinement sa grande force.
La décision de Mistral AI favorisera sans aucun doute davantage la vague open source de modèles multimodaux. La réponse de la communauté à ce nouveau modèle a été écrasante, de nombreux développeurs et chercheurs étant impatients de commencer à explorer le potentiel de Pixtral12B. Cela reflète non seulement la vitalité de la communauté open source, mais indique également que la technologie de l’IA multimodale pourrait ouvrir la voie à un nouveau cycle d’innovation.
Avec la sortie de Pixtral12B, nous avons des raisons d'espérer l'émergence d'applications plus innovantes. Que ce soit dans les domaines de la compréhension d’images, de l’analyse de documents ou du raisonnement intermodal, ce modèle peut apporter des progrès révolutionnaires. Cette décision de Mistral AI a sans aucun doute contribué à la démocratisation et à la vulgarisation de la technologie de l'IA. Attendons de voir comment elle remodèlera le modèle du domaine de l'IA à l'avenir.
Adresse de huggingface : https://huggingface.co/mistral-community/pixtral-12b-240910
La version open source de Pixtral12B marque une nouvelle étape dans le développement de la technologie d'IA multimodale. Sa conception légère et ses performances puissantes favoriseront grandement la vulgarisation et l'application de la technologie d'IA. Nous sommes impatients de voir émerger davantage d'applications innovantes basées sur Pixtral12B. .