Es gibt immer mehr Bildschirme auf Mobiltelefonen, Tablets, Computern und Fernsehern, und die Bedienung wird immer komplexer. Hat Apple kürzlich eine Königsbombe auf den Markt gebracht? Ferret-UI2, ein superleistungsfähiges UI-Verständnismodell. mit dem Anspruch, die Welt zu vereinen!
Das ist keine Prahlerei, das Ziel von Ferret-UI2 ist es, ein echter Sechseck-Krieger zu werden, der die Benutzeroberfläche auf verschiedenen Plattformen verstehen kann, egal ob iPhone, Android, iPad, Web oder AppleTV, er kann leicht gewinnen.
Eines der Highlights von Ferret-UI2 ist die Unterstützung mehrerer Plattformen. Im Gegensatz zu Ferret-UI, das auf mobile Plattformen beschränkt ist, ist Ferret-UI2 in der Lage, UI-Bildschirme verschiedener Geräte wie Tablets, Webseiten und Smart-TVs zu verstehen. Diese Multi-Plattform-Unterstützung ermöglicht die Anpassung an das vielfältige Geräte-Ökosystem von heute und bietet Benutzern ein breiteres Spektrum an Anwendungsszenarien.
Um die Wahrnehmung der Benutzeroberfläche zu verbessern, führt Ferret-UI2 eine dynamische hochauflösende Bildkodierungstechnologie ein und übernimmt eine Verbesserungsmethode namens „Adaptive Grid“. Mit diesem Ansatz ist Ferret-UI2 in der Lage, die Wahrnehmung bei der nativen Auflösung von UI-Screenshots beizubehalten, was eine genauere Erkennung visueller Elemente und ihrer Beziehungen ermöglicht.
Darüber hinaus nutzt Ferret-UI2 hochwertige Trainingsdaten, um grundlegende und fortgeschrittene Aufgaben zu erlernen. Für grundlegende Aufgaben wandelt Ferret-UI2 einfache Referenz- und Positionierungsdaten in Konversationsform um, sodass das Modell ein grundlegendes Verständnis für verschiedene UI-Bildschirme aufbauen kann. Für fortgeschrittene Aufgaben, die sich mehr auf die Benutzererfahrung konzentrieren, nutzt Ferret-UI2 die GPT-4o-basierte „Marker-Set-Visual-Cues“-Technologie, um Trainingsdaten zu generieren und ersetzt die einfachen Klicks der vorherigen Methode durch einstufige benutzerzentrierte Interaktionen.
Um die Leistung von Ferret-UI2 zu bewerten, erstellten die Forscher 45 Benchmarks für fünf Plattformen, darunter 6 Basisaufgaben und 3 erweiterte Aufgaben für jede Plattform. Darüber hinaus nutzten sie öffentliche Benchmarks wie GUIDE und GUI-World. Die Ergebnisse zeigen, dass Ferret-UI2 Ferret-UI in allen getesteten Benchmarks übertrifft und insbesondere bei fortgeschrittenen Aufgaben deutliche Verbesserungen erzielt, was seine Vielseitigkeit bei der Bewältigung plattformübergreifender UI-Verständnisaufgaben unter Beweis stellt.
Ablationsstudien zeigen außerdem, dass sowohl Architekturverbesserungen als auch Datensatzverbesserungen in Ferret-UI2 zu Leistungsverbesserungen beitragen, wobei der neue Datensatz einen größeren Einfluss auf anspruchsvollere Aufgaben hat. Darüber hinaus schneidet Ferret-UI2 auch beim plattformübergreifenden Transferlernen gut ab und zeigt insbesondere gute Generalisierungsfähigkeiten zwischen iPhone-, iPad- und Android-Plattformen.
Modelladresse: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Papieradresse: https://arxiv.org/pdf/2410.18967