Die neueste Version von Omniparser v2.0 durch Microsoft ist ein revolutionäres Parsing -Tool, das speziell für die Umwandlung von Benutzeroberflächen -Screenshots (UI) in strukturierte Datenformate entwickelt wurde. Das Kernziel dieses Tools ist es, Benutzern zu helfen, Informationen auf dem Bildschirm effizienter zu verstehen und zu manipulieren, indem sie die Leistung des LLM-Werts von Großsprachenmodell (LLM) verbessern. Der Start von Omniparser markiert eine neue Phase der UI -Automatisierungsverarbeitungstechnologie und bietet den Benutzern ein intelligentere interaktivere Erlebnis.
Um die Effizienz und Genauigkeit von Omniparser zu gewährleisten, hat Microsoft zwei wichtige Datensätze sorgfältig konstruiert: den Datensatz für interaktive Icon -Erkennungsdatensätze und den Datensatz für das Symbolbeschreibung. Ersteres extrahiert eine große Anzahl von Beispielen für klickbare und umsetzbare Bereiche von beliebten Webseiten und kommentiert sie mit automatisierter Annotationstechnologie. Die Konstruktion dieser Datensätze bietet eine solide Grundlage für die Schulung und Optimierung von Omniparser.
In V2.0 erzielte Omniparser signifikante Leistungsverbesserungen. Der aktualisierte Datensatz ist nicht nur größer, sondern auch eine höhere Qualität, was die Genauigkeit der Symbolbeschreibung und -positionierung um 60%erhöht. Darüber hinaus hat diese Version einen signifikanten Durchbruch in der Latenz erzielt, wobei die durchschnittliche Verarbeitungszeit auf dem A100 -Gerät nur 0,6 Sekunden/Rahmen und 0,8 Sekunden/Rahmen auf einer einzelnen 4090 -Grafikkarte beträgt. Im Screenspot Pro -Test erreichte der durchschnittliche Genauigkeitsrate von Omniparser 39,6%, was seine starken analytischen Fähigkeiten demonstriert hat.
Die nahtlose Kombination von Omniparser und Omnitool bietet Benutzern ein flexibleres Betriebserlebnis. Mit Omnitool können Benutzer Windows 11 Virtual Machines problemlos steuern und geeignete visuelle Modelle für die Parsen auswählen. Derzeit unterstützt Omnitool eine Vielzahl von Großsprachmodellen, darunter mehrere Versionen von OpenAI, Deepseek (R1), QWEN (2,5 VL) und anthropischer Computer.
Die Kernfunktion von Omniparser besteht darin, unstrukturierte Screenshot -Bilder in strukturierte Elementlisten umzuwandeln, einschließlich der Position interaktiver Bereiche und der Beschreibung der potenziellen Funktionen der Symbole. Dieses Tool eignet sich für viele Arten von Screenshots, die effizient verarbeitet werden können, unabhängig davon, ob es sich um die PC -Schnittstelle oder die Mobiltelefonoberfläche handelt. Benutzer müssen jedoch während des Gebrauchs über bestimmte analytische Fähigkeiten und kritisches Denken verfügen, denn obwohl Omniparser Informationen extrahieren kann, muss das endgültige Urteil jedoch noch vom Benutzer getroffen werden.
Obwohl Omniparser bei der UI -Parsen gut abschneidet, können seine Grenzen nicht ignoriert werden. Dieses Tool integriert keine schädlichen Inhaltserkennungsfunktionen, sodass Benutzer bei der Verwendung von Vorsicht eingesetzt werden sollten, um sicherzustellen, dass es keine schädlichen Informationen enthält. Obwohl Omniparser nur Screenshots in Text umwandelt, kann es dennoch verwendet werden, um verwertbare grafische Benutzeroberflächen -Agenten zu erstellen. Entwickler müssen sich beim Aufbau und Betriebsagenten ausschließlich an Sicherheitsstandards und Ethik einhalten, um den verantwortungsvollen Einsatz von Technologie zu gewährleisten.
Die Veröffentlichung von Omniparser V2.0 bietet nicht nur leistungsstarke Tools für die UI -Automatisierung, sondern eröffnet den Entwicklern auch neue Möglichkeiten, weitere Anwendungsszenarien zu untersuchen. Egal, ob es die Benutzererfahrung verbessert oder Geschäftsprozesse optimiert, Omniparser hat ein großes Potenzial gezeigt. Mit der kontinuierlichen Iteration der Technologie freuen wir uns darauf, dass innovativere Anwendungen auftauchen und die UI -Analyse -Technologie in eine neue Höhe bringen.