Ante las interacciones de interfaz cada vez más complejas en la era de la pantalla múltiple, como teléfonos móviles, tabletas, computadoras y televisores, Apple ha lanzado su poderoso modelo de comprensión de la interfaz de usuario, Ferret-UI2, con el objetivo de unificar la comprensión de la interfaz de usuario de diferentes plataformas. FERRET-UI2 no es una actualización simple, sino un nuevo modelo con capacidades multiplataforma. Sus ventajas centrales se encuentran en apoyo de la tecnología de codificación de imágenes de alta resolución dinámica y la tecnología de "Cues visuales" basados en GPT-4O, que hace que Ferret-UI2 sea significativo tanto en la percepción de la UI como en las capacidades de procesamiento de tareas.
Los teléfonos móviles, las tabletas, las computadoras y los televisores tienen más y más pantallas y operaciones más complejas.
Este no es un fanfarrón.
Lo más destacado de Ferret-UI2 es su soporte para múltiples plataformas. A diferencia de Ferret-UI, que se limita a plataformas móviles, Ferret-UI2 puede comprender las pantallas de interfaz de usuario de varios dispositivos, como tabletas, páginas web y televisores inteligentes. Este soporte multiplataforma le permite adaptarse al diverso ecosistema de dispositivos de hoy y proporcionar a los usuarios una gama más amplia de escenarios de aplicaciones.
Para mejorar la percepción de la UI, Ferret-UI2 introdujo la tecnología dinámica de codificación de imágenes de alta resolución y adoptó un método de mejora llamado "cuadrícula adaptativa". De esta manera, Ferret-UI2 puede mantener la percepción en la resolución original de la captura de pantalla de la UI, identificando así con mayor precisión los elementos visuales y sus relaciones.
Además, Ferret-UI2 también utiliza datos de capacitación de alta calidad para aprender tareas básicas y avanzadas. Para tareas básicas, Ferret-UI2 convierte los datos simples de referencia y posicionamiento en formatos de diálogo, lo que permite que el modelo establezca una comprensión básica de varias pantallas de IU. Para tareas avanzadas que se centran más en la experiencia del usuario, Ferret-UI2 utiliza la tecnología "Etiqueta de etiqueta de etiqueta" basada en GPT-4O para generar datos de capacitación y reemplaza los clics simples en el método anterior con interacción de centro de usuario de un solo paso. instrucción.
Para evaluar el rendimiento de Ferret-UI2, los investigadores construyeron 45 puntos de referencia que cubren cinco plataformas, incluidas 6 tareas básicas y 3 tareas avanzadas para cada plataforma. Además, también utilizaron puntos de referencia públicos como Guide y GUI-World. Los resultados muestran que FERRET-UI2 supera a FERRET-UI en todos los puntos de referencia de prueba, especialmente con avances significativos en tareas avanzadas, lo que demuestra su versatilidad en el manejo de tareas de comprensión de la interfaz de usuario multiplataforma.
Los estudios de ablación muestran además que tanto las mejoras de arquitectura de FERRET-UI2 como las mejoras en el conjunto de datos contribuyen a las mejoras de rendimiento, con el impacto de los nuevos conjuntos de datos en tareas más desafiantes de manera más significativa. Además, FERRET-UI2 también funcionó bien en el aprendizaje de transferencia multiplataforma, especialmente en buenas capacidades de generalización entre las plataformas de iPhone, iPad y Android.
Dirección del modelo: https://huggingface.co/jadechoghari/ferret-ui-llama8b
Dirección en papel: https://arxiv.org/pdf/2410.18967
En resumen, Ferret-UI2 proporciona nuevas posibilidades para una interacción humana más inteligente y más conveniente en el futuro con sus poderosas capacidades de comprensión de la interfaz de usuario multiplataforma y mejoras significativas de rendimiento. Su modelo de código abierto y papel también proporcionan recursos valiosos para futuras investigaciones y aplicaciones.