Zhipu AI lance Autoglm Agent: Instructions d'entrée pour simuler le fonctionnement humain des téléphones mobiles - articles de l'IA

Auteur：Eve Cole Date de mise à jour：2025-02-08 21:16:01

Zhipu AI a récemment publié un nouveau produit basé sur la technologie GLM, Autoglm, un corps intelligent qui peut simuler le fonctionnement humain des téléphones mobiles et effectuer diverses tâches quotidiennes. L'émergence d'autoglm marque une percée majeure dans l'IA dans le domaine des applications de téléphonie mobile. vie. . Sa logique de fonctionnement est similaire à celle des humains, sans processus complexes, et le seuil d'utilisation est extrêmement faible.

微信截图_20241026150533.png

Autoglm peut effectuer une variété de tâches, telles que des commentaires et des commentaires sur les moments WeChat, l'achat de produits de commande historique sur Taobao, la réservation d'hôtels sur CTRIP, l'achat de billets de train sur 12306, la commande de plats à emporter sur Meituan, etc. Ses scénarios d'application ne sont pas limités à cela.

Actuellement, les utilisateurs peuvent vivre Autoglm-Web en installant le plug-in "Zhipu Qingyan", qui est un assistant de navigateur qui peut simuler les utilisateurs visiter les pages Web, cliquer sur des pages Web et terminer automatiquement la recherche avancée, le résumé et la génération de contenu sur le site Web. En outre, Autoglm a également ouvert une application pour des tests internes sur les systèmes Android et a effectué une coopération approfondie avec des fabricants de téléphonie mobile tels que Honor.

微信截图_20241026150714.png

La technologie d'Autoglm est basée sur "l'interface intermédiaire de découplage des agents de base" de Zhipu »et le" Cadre d'apprentissage renforcé en ligne d'auto-évolution ", qui résout l'antagonisme de la capacité, les tâches de formation et la rareté des données dans la planification des tâches d'agent grand modèle et l'exécution de l'action. Des problèmes tels que les signaux de rétroaction clairsemés et la dérive de la distribution de la stratégie. L'autoglm peut s'améliorer en permanence et améliorer en permanence ses propres performances régulièrement, similaires aux personnes qui achètent constamment de nouvelles compétences au cours de leur croissance.

En termes de défis techniques, Autoglm résout le problème de «l'exécution d'action» insuffisante et de «planification des tâches» insuffisante. Grâce à la conception de "l'interface intermédiaire de base de l'agent", il découple les deux étapes de la "planification des tâches" et de "l'exécution d'action" à travers l'interface intermédiaire du langage naturel, réalisant une grande amélioration des capacités de l'agent. Dans le même temps, Autoglm adopte le «cadre d'apprentissage de renforcement en ligne d'auto-évolution» pour apprendre et améliorer les capacités des agents de grand modèle dans les environnements Web et téléphoniques dans de vrais environnements en ligne.

Autoglm a réalisé des améliorations de performances significatives à la fois sur l'utilisation du téléphone et l'utilisation du navigateur Web, et a dépassé les performances de GPT-4O et Claude-3.5-Sonnet dans les repères d'évaluation AndroidLab. Dans la référence d'évaluation Webarena-Lite, l'autoglm a atteint environ 200% d'amélioration des performances par rapport au GPT-4O, rétrécissant l'écart du taux de réussite entre les humains et les grands agents modèles dans la manipulation de GUI.

Adresse du projet: https://xiao9905.github.io/autoglm

Avec ses fonctions puissantes et son innovation technologique, Autoglm a démontré l'énorme potentiel de l'intelligence artificielle dans le domaine du fonctionnement du téléphone mobile, apportant plus de commodité à la vie quotidienne des gens. Ses excellentes performances dans les tests de performance prouvent également sa force technique. À l'avenir, avec la progression continue de la technologie, l'autoglm devrait obtenir des applications plus larges et créer plus de valeur pour les utilisateurs.