Cada vez hay más pantallas en teléfonos móviles, tabletas, computadoras y televisores, y las operaciones se vuelven cada vez más complejas. ¿Le sorprende que Apple haya lanzado recientemente una bomba real: Ferret-UI2, un modelo de comprensión de interfaz de usuario súper poderoso? Pretendiendo unificar el mundo.
Esto no es alardear, el objetivo de Ferret-UI2 es convertirse en un verdadero guerrero hexagonal, capaz de comprender la interfaz de usuario en varias plataformas, ya sea iPhone, Android, iPad, web o AppleTV, puede ganar fácilmente.
Uno de los aspectos más destacados de Ferret-UI2 es su soporte multiplataforma. A diferencia de Ferret-UI, que se limita a plataformas móviles, Ferret-UI2 puede comprender las pantallas de UI de varios dispositivos, como tabletas, páginas web y televisores inteligentes. Este soporte multiplataforma le permite adaptarse al diverso ecosistema de dispositivos actual y brindar a los usuarios una gama más amplia de escenarios de aplicaciones.
Para mejorar la percepción de la interfaz de usuario, Ferret-UI2 introduce tecnología dinámica de codificación de imágenes de alta resolución y adopta un método de mejora llamado "Adaptive Grid". Con este enfoque, Ferret-UI2 puede mantener la percepción en la resolución nativa de las capturas de pantalla de la interfaz de usuario, lo que permite un reconocimiento más preciso de los elementos visuales y sus relaciones.
Además, Ferret-UI2 aprovecha datos de entrenamiento de alta calidad para aprender tareas básicas y avanzadas. Para tareas básicas, Ferret-UI2 convierte datos simples de referencia y posicionamiento en formato conversacional, lo que permite que el modelo desarrolle una comprensión básica de varias pantallas de la interfaz de usuario. Para tareas avanzadas que se centran más en la experiencia del usuario, Ferret-UI2 utiliza la tecnología de "señales visuales de conjunto de marcadores" basada en GPT-4o para generar datos de entrenamiento y reemplaza los clics simples del método anterior con interacciones centradas en el usuario de un solo paso.
Para evaluar el rendimiento de Ferret-UI2, los investigadores crearon 45 puntos de referencia que cubren cinco plataformas, incluidas 6 tareas básicas y 3 tareas avanzadas para cada plataforma. Además, utilizaron puntos de referencia públicos como GUIDE y GUI-World. Los resultados muestran que Ferret-UI2 supera a Ferret-UI en todos los puntos de referencia probados, especialmente logrando mejoras significativas en tareas avanzadas, lo que demuestra su versatilidad en el manejo de tareas de comprensión de UI multiplataforma.
Los estudios de ablación muestran además que tanto las mejoras arquitectónicas como las mejoras del conjunto de datos en Ferret-UI2 contribuyen a mejorar el rendimiento, y el nuevo conjunto de datos tiene un impacto más significativo en tareas más desafiantes. Además, Ferret-UI2 también funciona bien en el aprendizaje por transferencia multiplataforma, mostrando especialmente buenas capacidades de generalización entre las plataformas iPhone, iPad y Android.
Dirección del modelo: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Dirección del artículo: https://arxiv.org/pdf/2410.18967