Alibaba lance le modèle d'inférence multimodale QVQ-72B ! Les compétences visuelles et linguistiques sont toutes deux améliorées, les problèmes complexes peuvent être résolus facilement

Auteur：Eve Cole Date de mise à jour：2024-12-27 16:16:01

Le nouveau modèle de raisonnement multimodal QVQ-72B d'Alibaba est construit sur la base de Qwen2-VL-72B et présente d'excellentes performances en matière de raisonnement visuel, de mathématiques et de problèmes scientifiques. Il peut fusionner des informations linguistiques et visuelles, effectuer un raisonnement en plusieurs étapes et résoudre des problèmes complexes. Il est particulièrement remarquable dans la dérivation de relations causales dans des problèmes physiques et un raisonnement mathématique complexe, réduisant considérablement le taux d'erreur et fournissant des étapes claires de résolution de problèmes. Le QVQ-72B démontre également une capacité efficace et précise à extraire des informations clés lors du traitement de rapports techniques et d'analyses de graphiques complexes, et possède des capacités de reconnaissance précises des détails des images. Il peut être appliqué à des domaines tels que la surveillance intelligente et la conduite autonome.

Le QVQ-72B a réalisé une percée majeure dans le domaine de l'IA multimodale. Ses puissantes capacités de raisonnement fournissent de nouvelles idées et de nouveaux outils pour résoudre des problèmes complexes, donnant ainsi un nouvel élan à la mise à niveau intelligente de diverses industries. L'essai en ligne et les liens d'introduction détaillés sont : https://huggingface.co/spaces/Qwen/QVQ-72B-preview et https://qwenlm.github.io/blog/qvq-72b-preview/. On pense que l’émergence du QVQ-72B favorisera l’application et le développement de la technologie de l’intelligence artificielle dans davantage de domaines.