El Instituto de Investigación de la Industria Inteligente (AIR) de la Universidad de Tsinghua lanzó el último modelo de IA AutoDroid-V2 el 24 de diciembre de 2024, con el objetivo de mejorar significativamente la eficiencia del control de automatización de los dispositivos móviles. Este modelo adopta de manera innovadora un método de script basado en un modelo de lenguaje pequeño en lugar de depender de un modelo de lenguaje grande en la nube. Resuelve eficazmente los problemas de alto consumo de tráfico y altos riesgos de privacidad y seguridad en los métodos tradicionales, mejorando así la experiencia del usuario y reduciendo al mismo tiempo. Costos de funcionamiento del lado del servidor.
Recientemente, el Instituto de Investigación de la Industria Inteligente (AIR) de la Universidad de Tsinghua lanzó un modelo de inteligencia artificial llamado AutoDroid-V2 el 24 de diciembre de 2024, con el objetivo de optimizar las capacidades de control de automatización de los dispositivos móviles. Este modelo mejora significativamente la eficiencia de las operaciones de los usuarios a través del lenguaje natural mediante la aplicación de pequeños modelos de lenguaje.
AutoDroid-V2 adopta un enfoque basado en scripts, que es diferente del enfoque tradicional que se basa en modelos de lenguaje grandes (LLM) en la nube. Esta innovación permite que el dispositivo ejecute eficientemente las instrucciones del usuario y reduzca la dependencia de los servicios en la nube, mejorando así significativamente la privacidad y la seguridad. Al mismo tiempo, también reduce el consumo de tráfico del lado del usuario y los costos operativos del lado del servidor, y promueve la aplicación generalizada de dispositivos móviles.
En el contexto del proyecto, en los últimos años, el auge de grandes modelos de lenguaje y modelos de lenguaje visual ha hecho posible controlar dispositivos móviles mediante comandos de lenguaje natural. Estas tecnologías proporcionan nuevas formas de resolver tareas complejas de los usuarios. Sin embargo, el enfoque tradicional del "agente GUI paso a paso" tiene problemas con el alto consumo de tráfico y los riesgos de seguridad de la privacidad, lo que dificulta la implementación a gran escala.
La innovación de AutoDroid-V2 es que puede generar scripts de varios pasos basados en instrucciones del usuario para realizar múltiples operaciones GUI a la vez. Este método reduce en gran medida la frecuencia de consultas, reduce el consumo de recursos y puede generar y ejecutar scripts de tareas directamente en el dispositivo del usuario. Este modelo crea documentación de aplicaciones fuera de línea, sentando las bases para la generación posterior de scripts.
En la prueba de rendimiento, AutoDroid-V2 realizó una prueba comparativa de 226 tareas en 23 aplicaciones móviles. En comparación con modelos anteriores, como AutoDroid y SeeClick, la tasa de finalización de tareas aumentó entre un 10,5% y un 51,7%. Además, su consumo de tokens de entrada y salida se reduce a 1/43,5 y 1/5,8 respectivamente, y la latencia de inferencia del modelo se reduce de 5,7 a 13,4 veces la original. Estos resultados muestran la eficiencia y confiabilidad de AutoDroid-V2 en aplicaciones prácticas.
Reflejos:
AutoDroid-V2 es un nuevo modelo de IA lanzado por la Universidad de Tsinghua que mejora la eficiencia del control del lenguaje natural de los dispositivos móviles.
Este modelo reduce la dependencia de los servicios en la nube a través de modelos de lenguaje pequeño y mejora la privacidad y seguridad del usuario.
Las pruebas comparativas muestran que AutoDroid-V2 tiene mejoras significativas en la tasa de finalización de tareas y el consumo de recursos, lo que demuestra un fuerte potencial de aplicación.
En definitiva, AutoDroid-V2 proporciona una nueva solución para el control automatizado de dispositivos móviles con su alta eficiencia, seguridad y bajo costo, lo que demuestra sus enormes perspectivas de aplicación. Vale la pena esperar su desarrollo futuro y sus aplicaciones más amplias.