Les agents IA (agents intelligents) qui prennent le contrôle des appareils humains n'étaient autrefois que des décors de films de science-fiction, mais ils sont aujourd'hui devenus un sujet brûlant en bourse.
Le 23 octobre dernier, Anthropic, une grande société américaine de modèles d'IA, a lancé le nouveau Claude 3.5 Haiku et la version améliorée de Sonnet. Sonnet apporte une nouvelle expérience d'IA « Utilisation de l'ordinateur », qui peut faire fonctionner l'ordinateur comme un humain, comme visualiser l'écran, déplacer le curseur, cliquer, taper via un clavier virtuel, etc.
Deux jours plus tard, Zhipu AI a suivi l'exemple d'Anthropic et a lancé AutoGLM, avec un objectif clair : « contrôler » le téléphone mobile de l'utilisateur en tant qu'assistant personnel. Il peut effectuer de manière indépendante des tâches personnalisées telles que l'interaction avec WeChat, passer des commandes à emporter et même récupérer des enveloppes rouges. Il est principalement destiné aux opérations courantes des utilisateurs dans des applications telles que WeChat, Taobao, Meituan et Xiaohongshu.
Ces deux produits représentent la transition de l'IA des machines de chat à l'étape d'utilisation d'outils pour résoudre des problèmes, permettant aux agents d'IA d'évoluer progressivement vers des produits pratiques dans la réalité.
Cette tendance des agents IA a immédiatement provoqué un choc sur le marché des capitaux.
Lorsque le marché s'est ouvert dans la matinée du 28 octobre, les actions conceptuelles liées à Zhipu ont rapidement atteint la limite quotidienne, telles que Parallel Technology, Capital Online, Startup Dark Horse, Doushen Education, Chuanzhi Education et Dianguang Media. les actions ont atteint la limite quotidienne, avec une hausse de 20 à 30 %.
La réponse rapide du marché des capitaux reflète les attentes élevées quant aux perspectives de commercialisation d’AI Agent. Mais en substance, étant donné que les applications concernées en sont encore aux premiers stades du marché, cette vague de hausse des prix ne peut pas exclure le sentiment du marché et la spéculation.
AI Agent est-il une tendance à long terme dans les technologies futures ou une tendance à court terme ?
D'un point de vue technique, la montée en puissance des agents d'IA axés sur « l'utilisation de l'ordinateur » (utilisation de l'ordinateur) et « l'utilisation du téléphone » (utilisation du téléphone mobile) marque le développement de l'IA depuis la compréhension d'un seul langage jusqu'à son extension progressive vers l'exécution de tâches complexes.
Claude Sonnet d'Anthropic et AutoGLM de Zhipu traiteront non seulement les conversations en langage naturel, mais contrôleront également directement l'appareil de l'utilisateur pour effectuer des opérations spécifiques. Il s'agit d'une nouvelle étape de l'interaction homme-machine. La démonstration Sonnet d'Anthropic montre qu'elle peut gérer des tâches telles que l'écriture de code et l'analyse de données, et peut même essayer différentes solutions lorsque des erreurs surviennent. Cette flexibilité montre que l'IA commence à avoir une certaine « puissance d'exécution ».
AutoGLM de Zhipu se concentre sur la scène de la téléphonie mobile. En comprenant les composants de l'interface utilisateur grâce à la technologie OCR et en comprenant les fonctions des composants grâce à une formation à la réflexion en chaîne, AutoGLM peut identifier différents composants sur l'écran du téléphone mobile de l'utilisateur, comprendre leurs fonctions, puis exécuter des opérations conformément aux instructions, telles que l'automatisation des interactions WeChat et des commandes de commerce électronique. .
Cependant, ces produits présentent encore des limites en termes d’expérience utilisateur et de commercialisation.
Même si AutoGLM rend les opérations sur téléphone mobile plus intelligentes, il soulève également des inquiétudes en matière de confidentialité et de sécurité : les utilisateurs renonceront-ils à une certaine protection de la vie privée pour des raisons de commodité ? De plus, AutoGLM nécessite actuellement encore des instructions claires et est limité en termes d'adaptabilité multiplateforme et de précision opérationnelle : pour obtenir une automatisation véritablement transparente, une optimisation continue est nécessaire.
En termes de véritable « intelligence », AutoGLM peut également être amélioré. Par exemple, CITIC Securities a souligné dans un rapport de recherche que dans la vidéo de démonstration officielle, AutoGLM a payé plus de 18 yuans lors de la commande de Luckin Coffee, ce qui représentait une prime évidente. Il semble qu'elle n'ait pas encore maîtrisé le complexe de « l'accaparement ». coupons" gameplay de ces marques. .
En termes de commercialisation spécifique, en septembre, Zhipu et Honor ont créé un laboratoire commun de technologie de grands modèles d'IA pour permettre à l'industrie de voir le potentiel de l'agent d'IA dans les applications de terminaux. Cependant, en raison du nombre limité de marques de téléphones mobiles prenant en charge cette fonctionnalité, une véritable application à grande échelle prendra encore du temps. Selon IDC, la part de marché des téléphones mobiles IA et des PC IA sur le marché chinois dépassera respectivement 50 % et 80 % en 2027.
À en juger par les actions d'aménagement des géants de la technologie, AI Agent est en effet un champ de bataille important dans le domaine des grands modèles.
Selon des informations publiques, OpenAI devrait lancer son propre logiciel AI Agent Orion d'ici la fin de l'année, et Apple ajoutera également Apple Intelligence à iOS 18.1 le mois prochain. Microsoft a open source l'outil d'analyse d'écran OmniParser, qui peut compléter des fonctions telles que la réservation automatique de billets. Geimini 2.0 de Google devrait être lancé en décembre et un nouveau projet similaire, le « Projet Jarvis », est en cours de développement pour automatiser les tâches des pages Web Chrome.
Cela signifie que les agents d’IA continuent de passer des produits de laboratoire aux applications de masse, et que les géants derrière eux se mobilisent également pour occuper le marché.
Les tendances du capital-risque dans la Silicon Valley montrent que de plus en plus d’entreprises passent de l’infrastructure d’IA au niveau des applications, et que les applications d’IA plus segmentées verticalement sont en plein essor. Cependant, la technologie actuelle des agents AI est toujours confrontée à des défis, tels que des capacités opérationnelles multiplateformes insuffisantes, une forte dépendance aux instructions et une expérience personnalisée qui doit être optimisée. Afin de pénétrer complètement le marché grand public, AI Agent doit non seulement améliorer ses fonctions, mais également gagner la confiance du public en termes de confidentialité et de sécurité des données.
À court terme, le champ d'application d'AI Agent est encore limité, mais l'efficacité et la commodité qu'il apporte sont suffisamment attrayantes. Une fois les problèmes techniques et de confidentialité résolus, les agents IA auront de plus grandes opportunités de faire progresser les applications intelligentes dans la vie humaine.