L'Institut de recherche sur l'industrie intelligente (AIR) de l'Université Tsinghua a publié le dernier modèle d'IA AutoDroid-V2 le 24 décembre 2024, dans le but d'améliorer considérablement l'efficacité du contrôle d'automatisation des appareils mobiles. Ce modèle adopte de manière révolutionnaire une méthode de script basée sur un petit modèle de langage au lieu de s'appuyer sur un grand modèle de langage dans le cloud. Il résout efficacement les problèmes de consommation élevée de trafic et de risques élevés en matière de confidentialité et de sécurité dans les méthodes traditionnelles, améliorant ainsi l'expérience utilisateur tout en réduisant. coûts de fonctionnement côté serveur.
Récemment, l'Institut de recherche sur l'industrie intelligente (AIR) de l'Université Tsinghua a publié le 24 décembre 2024 un modèle d'IA appelé AutoDroid-V2, visant à optimiser les capacités de contrôle d'automatisation des appareils mobiles. Ce modèle améliore considérablement l'efficacité des opérations des utilisateurs grâce au langage naturel grâce à l'application de petits modèles de langage.
AutoDroid-V2 adopte une approche basée sur des scripts, différente de l'approche traditionnelle qui repose sur des modèles de langage étendus (LLM) dans le cloud. Cette innovation permet à l'appareil d'exécuter efficacement les instructions de l'utilisateur et de réduire la dépendance aux services cloud, améliorant ainsi considérablement la confidentialité et la sécurité. Dans le même temps, cela réduit également la consommation de trafic côté utilisateur et les coûts d'exploitation côté serveur, et favorise l'application généralisée des appareils mobiles.
Dans le contexte du projet, ces dernières années, la montée en puissance des grands modèles de langage et des modèles de langage visuel a permis de contrôler les appareils mobiles via des commandes en langage naturel. Ces technologies offrent de nouvelles façons de résoudre des tâches utilisateur complexes. Cependant, l'approche traditionnelle « agent GUI étape par étape » présente des problèmes de consommation de trafic élevée et de risques de sécurité de la confidentialité, ce qui rend le déploiement à grande échelle confronté à des obstacles.
L'innovation d'AutoDroid-V2 est qu'il peut générer des scripts en plusieurs étapes basés sur les instructions de l'utilisateur pour effectuer plusieurs opérations GUI à la fois. Cette méthode réduit considérablement la fréquence des requêtes, réduit la consommation de ressources et peut générer et exécuter directement des scripts de tâches sur la machine utilisateur. Ce modèle crée la documentation de l'application hors ligne, jetant ainsi les bases de la génération ultérieure de scripts.
Lors du test de performances, AutoDroid-V2 a effectué un test de référence de 226 tâches sur 23 applications mobiles. Par rapport aux modèles précédents, tels qu'AutoDroid et SeeClick, le taux d'achèvement des tâches a augmenté de 10,5 % pour atteindre 51,7 %. De plus, sa consommation de jetons d'entrée et de sortie est réduite à 1/43,5 et 1/5,8 respectivement, et la latence d'inférence du modèle est réduite à 5,7 à 13,4 fois par rapport à l'original. Ces résultats montrent l'efficacité et la fiabilité d'AutoDroid-V2 dans des applications pratiques.
Points forts:
AutoDroid-V2 est un nouveau modèle d'IA lancé par l'Université Tsinghua qui améliore l'efficacité du contrôle du langage naturel des appareils mobiles.
Ce modèle réduit la dépendance aux services cloud grâce à de petits modèles de langage et améliore la confidentialité et la sécurité des utilisateurs.
Les tests de référence montrent qu'AutoDroid-V2 présente des améliorations significatives en termes de taux d'achèvement des tâches et de consommation de ressources, démontrant ainsi un fort potentiel d'application.
Dans l'ensemble, AutoDroid-V2 offre une nouvelle solution pour le contrôle automatisé des appareils mobiles avec sa haute efficacité, sa sécurité et son faible coût, montrant ses énormes perspectives d'application. Il vaut la peine d'attendre avec impatience son développement futur et ses applications plus larges.