Alibaba Cloud hat kürzlich sein neues visuelles Modell von Tongyi Qianwen Big Model - Qwen2.5 -VL - veröffentlicht und seine drei verschiedenen Größenversionen von 3B, 7B und 72B eröffnet. Dieser Schritt markiert einen signifikanten Durchbruch im Bereich der AI-Vision . QWEN2.5-VL verfügt nicht nur über leistungsstarke Bildverständnisfunktionen, sondern unterstützt auch mehr als eine Stunde Videoverständnis. abonnieren.
Alibaba Cloud Tongyi Qianwen hat das neue visuelle Modell QWEN2.5-VL eröffnet und drei Größenversionen in 3B, 7B und 72B gestartet.
Unter ihnen gewann das Flaggschiff QWEN2.5-VL-72B die visuelle Verständnismeisterschaft in 13 maßgeblichen Bewertungen und übertraf GPT-4O und Claude3.5. Alibaba Cloud stellte offiziell vor, dass das neue QWEN2.5-VL den Bildinhalt genauer analysieren und mehr als 1 Stunde Videoverständnis unterstützen kann. Dieses Modell kann nach bestimmten Ereignissen im Video suchen und wichtige Punkte verschiedener Zeiträume des Videos zusammenfassen, wodurch Benutzer schnell und effizient helfen können, Schlüsselinformationen aus dem Video zu extrahieren.
Darüber hinaus kann QWEN2.5-VL in visuelle Wirkstoffe umgewandelt werden, die Mobiltelefone und Computer ohne Feinabstimmung steuern, mehrstufige und komplexe Operationen erreichen, z. Buchung warten. QWEN2.5-VL ist nicht nur gut darin, gemeinsame Objekte wie Blumen, Vögel, Fische und Insekten zu identifizieren, sondern auch Text, Diagramme, Ikonen, Grafiken und Layouts in Bildern analysiert. Alibaba Cloud hat auch die OCR-Erkennungsfunktionen von QWEN2.5-VL verbessert und die Funktionen für Multi-Szenen, mehrsprachige und multidirektionale Texterkennungs- und Textpositionierungsfunktionen verbessert.
Gleichzeitig wurde die Informationsextraktionsfunktion erheblich verbessert, um den wachsenden digitalen und intelligenten Bedürfnissen der Überprüfung, Finanzierung und Handel der Qualifikation zu erfüllen.
Punkte:
Alibaba Cloud Tongyi Qianwen Open Source Qwen2.5-VL, startet drei Versionen von 3b, 7b und 72b.
Qwen2.5-VL-72B übertrifft GPT-4O und Claude3.5 in der visuellen Verständnisbewertung.
QWEN2.5-VL unterstützt das Videoverständnis über 1 Stunde und verbessert die OCR-Erkennungsfunktionen.
Die Open Source of Qwen2.5-VL wird die Entwicklung der KI-Vision erheblich fördern und mehr Möglichkeiten für innovative Anwendungen für alle Lebensbereiche bringen. Die leistungsstarken Leistung und die breiten Anwendungsaussichten werden zweifellos die Weiterentwicklung und Popularisierung der Technologie für künstliche Intelligenz fördern.