Alibaba Cloud a récemment publié son nouveau modèle visuel de Tongyi Qianwen Big Model - Qwen2.5-VL, et a ouvert ses trois versions de taille différentes de 3b, 7b et 72b. Cette décision marque une percée importante dans le domaine de la vision de l'IA. . Qwen2.5-VL a non seulement des capacités de compréhension d'images puissantes, mais prend également en charge plus d'une heure de compréhension vidéo. abonnement.
Alibaba Cloud Tongyi Qianwen a ouvert le nouveau modèle visuel QWEN2.5-VL et a lancé trois versions de taille en 3B, 7B et 72B.
Parmi eux, le produit phare QWEN2.5-VL-72B a remporté le championnat Visual Comprendre en 13 revues faisant autorité, dépassant GPT-4O et Claude3.5. Alibaba Cloud a officiellement présenté que le nouveau QWEN2.5-VL peut analyser plus précisément le contenu d'image et prendre en charge plus d'une heure de compréhension vidéo. Ce modèle peut rechercher des événements spécifiques dans la vidéo et résumer les points clés de différentes périodes de la vidéo, aidant ainsi rapidement et efficacement les utilisateurs à extraire des informations clés de la vidéo.
De plus, Qwen2.5-vl peut être transformé en agents visuels qui peuvent contrôler les téléphones mobiles et les ordinateurs sans réglage fin, réalisant des opérations en plusieurs étapes et complexes, tels que l'envoi de bénédictions à des amis désignés, la modification photo d'ordinateur et les billets mobiles réservation d'attente. Qwen2.5-vl est non seulement bon pour identifier les objets communs, tels que les fleurs, les oiseaux, les poissons et les insectes, mais analyse également le texte, les graphiques, les icônes, les graphiques et les dispositions en images. Alibaba Cloud a également amélioré les capacités de reconnaissance OCR de QWEN2.5-VL et amélioré les capacités de reconnaissance de texte et de positionnement de texte multi-scène, multi-langues et multidirectionnelles.
Dans le même temps, la capacité d'extraction de l'information a été considérablement améliorée pour répondre aux besoins numériques et intelligents croissants de l'examen, de la finance et du commerce de la qualification.
Points:
Alibaba Cloud Tongyi Qianwen Open Source Qwen2.5-VL, lançant trois versions de 3b, 7b et 72b.
Qwen2.5-VL-72B dépasse GPT-4O et Claude3.5 dans l'évaluation de la compréhension visuelle.
Qwen2.5-vl prend en charge la compréhension vidéo sur 1 heure et améliore les capacités de reconnaissance de l'OCR.
L'open source de Qwen2.5-vl favorisera grandement le développement de la vision de l'IA et apportera plus de possibilités d'applications innovantes à tous les horizons. Ses performances puissantes et ses larges perspectives d'application favoriseront sans aucun doute le développement et la popularisation de la technologie de l'intelligence artificielle.