Das Open-Source-Visual-Sprachmodell CogAgent von Zhipu AI unterstützt Fragen und Antworten auf der grafischen GUI-Schnittstelle

Autor：Eve Cole Aktualisierungszeit：2025-01-16 14:16:01

Zhipu AI hat kürzlich sein visuelles Sprachmodell CogAgent als Open Source veröffentlicht, ein leistungsstarkes Tool mit einer Parametergröße von 18 Milliarden und hervorragender Leistung beim GUI-Verständnis und der Navigation. CogAgent unterstützt hochauflösende visuelle Eingaben und Konversationsfragen und -antworten, kann Fragen und Antworten auf der Grundlage eines beliebigen GUI-Screenshots durchführen und unterstützt OCR-bezogene Aufgaben. Durch das Vortraining und die Feinabstimmung wurden die Fähigkeiten des Modells erheblich verbessert. Benutzer können Aufgabenüberlegungen durchführen, indem sie Screenshots hochladen und Pläne, nächste Aktionen und spezifische Betriebskoordinateninformationen abrufen, was den Benutzern ein komfortableres und effizienteres interaktives Erlebnis bietet. Dieses Modell hat in mehreren Benchmark-Tests die allgemeine SOTA-Leistung erreicht und damit seine technische Führungsrolle im Bereich der visuellen Sprache unter Beweis gestellt.

Die Open Source von CogAgent stellt der KI-Community ein leistungsstarkes neues Tool zur Verfügung, und seine Fähigkeiten im Bereich GUI-Verständnis und Interaktion sollen die Entwicklung vieler Anwendungsszenarien fördern. Man geht davon aus, dass CogAgent in Zukunft in weiteren Bereichen eine wichtige Rolle spielen und sich weiter verbessern wird, um Benutzern umfassendere Dienste zu bieten.