Conçu pour un raisonnement visuel complexe ! Microsoft lance le modèle open source léger et multimodal Phi-3.5-vision

Auteur：Eve Cole Date de mise à jour：2024-12-22 19:16:02

Microsoft a lancé un nouveau modèle d'IA multimodal léger, Phi-3.5-vision, qui est un nouveau membre de la famille Phi-3 et est conçu pour traiter le texte et les entrées visuelles. Le modèle fonctionne bien dans les environnements aux ressources limitées et prend en charge une longueur de contexte de 128 Ko, ce qui le rend idéal pour les applications commerciales et de recherche. Phi-3.5-vision intègre la compréhension d'images, l'OCR, l'analyse de graphiques et d'autres fonctions, et a démontré d'excellentes performances dans plusieurs tests de référence. Sa nature open source et sa conception efficace en font un choix idéal pour diverses applications d’IA.

Le modèle Phi-3.5-vision offre une compréhension approfondie des images, une reconnaissance optique de caractères (OCR), une analyse de graphiques et de tableaux, un résumé de plusieurs images ou clips vidéo, et bien plus encore. Le modèle a démontré des améliorations significatives des performances sur les benchmarks liés au traitement de l'image et de la vidéo.

Le modèle Phi-3.5-vision se compose d'un système de 4,2 milliards de paramètres, comprenant des encodeurs d'images, des connecteurs, des projecteurs et des modèles de langage Phi-3Mini. Il est formé à l'aide de données éducatives de haute qualité, de données synthétiques et de documents publics rigoureusement sélectionnés, garantissant la qualité et la confidentialité des données.

Phi-3.5-vision contient trois modèles :

Phi-3.5Mini Instruct : modèle d'IA léger, adapté aux environnements avec une mémoire ou des ressources informatiques limitées.

Phi-3.5MoE (Mixture of Experts) : le premier modèle de « mélange d'experts » de Microsoft, efficace pour gérer des tâches complexes.

Phi-3.5Vision Instruct : Modèle multimodal intégrant des fonctions de traitement de texte et d'image.

Principales caractéristiques

Les principales fonctionnalités fonctionnelles du modèle Phi-3.5-vision incluent la compréhension d'images, l'OCR, la compréhension de graphiques et de tableaux, la comparaison multi-images, le résumé de plusieurs images ou clips vidéo, des capacités de raisonnement efficaces, ainsi qu'une faible latence et une optimisation de la mémoire.

Phi-3.5-vision a obtenu de bons résultats dans plusieurs tests de référence, tels que les tests de capacité MMMU, MMBench, TextVQA et de traitement vidéo, ainsi que le test de référence BLINK, démontrant ses solides performances dans les tâches multimodales et visuelles.

La sortie du modèle Phi-3.5-vision de Microsoft apporte de nouvelles options dans le domaine de l'IA, notamment en termes de fonctionnement côté appareil et de raisonnement visuel complexe. Ses fonctionnalités open source et sa conception optimisée lui permettent de bien fonctionner dans des environnements aux ressources limitées, offrant une prise en charge solide pour une variété d'applications basées sur l'IA.

Adresse de téléchargement du modèle : https://huggingface.co/microsoft/Phi-3.5-vision-instruct

Dans l’ensemble, Phi-3.5-vision fournit un outil puissant pour les développeurs et les chercheurs en IA grâce à ses caractéristiques légères, multimodales et hautes performances, favorisant l’application de l’IA dans davantage de domaines. Sa nature open source favorise également le partage et le développement de la technologie de l’IA.