Alibabas neu veröffentlichtes multimodales Denkmodell QVQ-72B basiert auf Qwen2-VL-72B und zeigt hervorragende Leistungen beim visuellen Denken, in der Mathematik und bei wissenschaftlichen Problemen. Es kann sprachliche und visuelle Informationen zusammenführen, mehrstufiges Denken durchführen und komplexe Probleme lösen. Es eignet sich besonders gut für die Ableitung von Kausalzusammenhängen bei physikalischen Problemen und komplexen mathematischen Überlegungen, wodurch die Fehlerquote erheblich reduziert wird und klare Problemlösungsschritte bereitgestellt werden. QVQ-72B demonstriert außerdem die effiziente und genaue Fähigkeit, wichtige Informationen bei der Verarbeitung technischer Berichte und komplexer Diagrammanalysen zu extrahieren, und verfügt über genaue Bilddetailerkennungsfunktionen. Es kann in Bereichen wie intelligenter Überwachung und autonomem Fahren eingesetzt werden.
QVQ-72B hat einen großen Durchbruch auf dem Gebiet der multimodalen KI erzielt. Seine leistungsstarken Argumentationsfunktionen liefern neue Ideen und Werkzeuge zur Lösung komplexer Probleme und verleihen der intelligenten Modernisierung verschiedener Branchen neue Impulse. Die Online-Testversion und die detaillierten Einführungslinks sind: https://huggingface.co/spaces/Qwen/QVQ-72B-preview und https://qwenlm.github.io/blog/qvq-72b-preview/. Es wird davon ausgegangen, dass die Einführung von QVQ-72B die Anwendung und Entwicklung der Technologie der künstlichen Intelligenz in weiteren Bereichen vorantreiben wird.