Google veröffentlicht die neueste KI zum „Bildschirmlesen“! PaLM 2-S generiert automatisch Daten und mehrere Verständnisaufgaben aktualisieren SOTA

Autor：Eve Cole Aktualisierungszeit：2025-02-08 07:32:01

Googles neu veröffentlichtes visuelles Sprachmodell ScreenAI hat bei mehreren Verständnisaufgaben bahnbrechende Fortschritte gemacht und einen neuen SOTA-Rekord aufgestellt. Dieses Modell nutzt die innovative automatische Datengenerierungsmethode PaLM 2-S, die die Vielfalt und Komplexität des Datensatzes effektiv verbessert und gleichzeitig eine hohe Effizienz gewährleistet. Mit seiner multimodalen Encoder-Architektur kann ScreenAI Text- und Bild-zu-Text-Aufgaben hervorragend erledigen und eine führende Leistung bei Aufgaben wie Bildschirm-QA, Infografiken und Dokumentverständnis demonstrieren, was neue Entwicklungen auf dem Gebiet der visuellen Sprachmodelle ermöglicht.

Google hat kürzlich das visuelle Sprachmodell ScreenAI veröffentlicht, das PaLM 2-S zur automatischen Generierung von Daten verwendet und SOTA-Rekorde für mehrere Verständnisaufgaben bricht. Das Modell verwendet eine multimodale Encoder-Architektur, um die Lösung von Text- und Bild-zu-Text-Aufgaben zu erreichen. Forscher nutzen automatisierte Datengenerierungsmethoden, um die Vielfalt und Komplexität von Datensätzen zu erhöhen und gleichzeitig die Effizienz sicherzustellen. Das Modell erzielt Spitzenleistungen bei der Bildschirmqualitätssicherung, Infografiken und Dokumentenverständnisaufgaben.

Das Aufkommen von ScreenAI stellt einen bedeutenden Fortschritt in der Technologie visueller Sprachmodelle dar. Seine effiziente Datengenerierungsmethode und führende Leistung bieten eine neue Richtung für die zukünftige KI-Entwicklung. Die Technologie der automatischen Generierung von Daten liefert auch neue Ideen und Referenzen für das Training anderer KI-Modelle. Wir freuen uns darauf, dass ScreenAI seine leistungsstarken Fähigkeiten in praktischeren Anwendungsszenarien demonstriert.