Angesichts der zunehmend komplexen Interface-Interaktionen in der Multi-Screen-Ära wie Mobiltelefonen, Tablets, Computern und Fernsehgeräten hat Apple sein leistungsstarkes UI-Verständnismodell Ferret-UI2 gestartet, um das Verständnis der Benutzeroberfläche verschiedener Plattformen zu vereinheitlichen. Ferret-UI2 ist kein einfaches Upgrade, sondern ein neues Modell mit plattformübergreifenden Funktionen. Seine Kernvorteile sind zur Unterstützung von Multi-Plattformen, der dynamischen hochauflösenden Image-Codierungstechnologie und der GPT-4O-basierten "Market Set Visual Cues", die Ferret-UI2 sowohl für die Wahrnehmung von UI als auch die Aufgabenverarbeitung von Bedeutung machen.
Mobile, Tablets, Computer und Fernseher haben immer mehr Bildschirme und komplexere Vorgänge.
Dies ist kein Prahlerei.
Ein Höhepunkt von Ferret-UI2 ist die Unterstützung für mehrere Plattformen. Im Gegensatz zu Ferret-UI, das sich auf mobile Plattformen beschränkt, kann Ferret-UI2 UI-Bildschirme von verschiedenen Geräten wie Tablets, Webseiten und Smart-TVs verstehen. Mit dieser Mehrfach-Plattform-Unterstützung können sie sich an das heutige vielfältige Geräte-Ökosystem anpassen und Benutzern ein breiteres Spektrum an Anwendungsszenarien zur Verfügung stellen.
Zur Verbesserung der UI-Wahrnehmung führte Ferret-UI2 eine dynamische hochauflösende Bildcodierungstechnologie ein und übernahm eine Verbesserungsmethode namens "Adaptive Grid". Auf diese Weise kann Ferret-UI2 die Wahrnehmung bei der ursprünglichen Auflösung des UI-Screenshots aufrechterhalten und so visuelle Elemente und ihre Beziehungen genauer identifizieren.
Darüber hinaus verwendet Ferret-UI2 hochwertige Schulungsdaten, um grundlegende und fortschrittliche Aufgaben zu erlernen. Für grundlegende Aufgaben wandelt Ferret-UI2 einfache Referenz- und Positionierungsdaten in Dialogformate um, sodass das Modell ein grundlegendes Verständnis verschiedener UI-Bildschirme festlegen kann. Für erweiterte Aufgaben, die sich mehr auf die Benutzererfahrung konzentrieren, verwendet Ferret-UI2 die GPT-4O-basierte "Tag-Set-Visual-Eingabeaufforderung" -Technologie, um Trainingsdaten zu generieren, und ersetzt die einfachen Klicks in der vorherigen Methode durch einstufige Benutzer-Zentrum-Interaktion. Anweisung.
Um die Leistung von Ferret-UI2 zu bewerten, bauten die Forscher 45 Benchmarks, die fünf Plattformen abdecken, darunter 6 grundlegende Aufgaben und 3 erweiterte Aufgaben für jede Plattform. Darüber hinaus verwendeten sie öffentliche Benchmarks wie Leitfaden und GUI-World. Die Ergebnisse zeigen, dass Ferret-UI2 Ferret-UI in allen Test-Benchmarks übertrifft, insbesondere mit signifikanten Fortschritten bei fortgeschrittenen Aufgaben, was deren Vielseitigkeit bei der Behandlung von plattformübergreifenden UI-Verständnisaufgaben zeigt.
Ablationsstudien zeigen ferner, dass sowohl Verbesserungen der Ferret-UI2-Architektur als auch Datensatzverbesserungen zu Leistungsverbesserungen beitragen, wobei die Auswirkungen neuer Datensätze auf anspruchsvollere Aufgaben deutlicher sind. Darüber hinaus hat Ferret-UI2 im plattformübergreifenden Transferlernen eine gute Leistung erzielt, insbesondere in guten Generalisierungsfunktionen zwischen iPhone-, iPad- und Android-Plattformen.
Modelladresse: https://huggingface.co/jadechoghari/ferret-ui-lama8b
Papieradresse: https://arxiv.org/pdf/2410.18967
Kurz gesagt, Ferret-UI2 bietet in Zukunft neue Möglichkeiten für intelligentere und bequemere Wechselwirkung zwischen Mensch und Komputer. Das Open -Source -Modell und das Open -Source -Papier bieten auch wertvolle Ressourcen für weitere Forschung und Anwendung.