La fonctionnalité « utilisation informatique » de Claude d'Anthropic, lancée en octobre, a attiré l'attention pour ses capacités d'agent IA. Claude est devenu le premier modèle de pointe capable d'interagir via la même interface utilisateur graphique (GUI) que les humains. L'éditeur de Downcodes vous donnera une compréhension approfondie des progrès révolutionnaires de cette technologie, ainsi que des défis auxquels elle est confrontée et de son orientation future en matière de développement.
Depuis qu'Anthropic a lancé la fonctionnalité « Utilisation de l'ordinateur » de Claude en octobre, les capacités de l'agent IA ont attiré une large attention. Cette fonctionnalité fait de Claude le premier modèle de pointe à interagir via la même interface utilisateur graphique (GUI) qu'un humain.
Claude offre aux utilisateurs un moyen pratique d'automatiser les opérations sans avoir besoin d'une interface API en accédant aux captures d'écran du bureau et en effectuant des tâches via des opérations au clavier et à la souris.
Dans une étude menée par le Show Lab de l'Université nationale de Singapour, les chercheurs ont testé Claude sur diverses tâches, notamment les recherches sur le Web, l'exécution des flux de travail, la productivité au bureau et les jeux vidéo. Ces tâches testaient les capacités de Claude dans différents scénarios, comme rechercher et acheter des articles sur le Web, ou extraire des informations d'un site Web et les insérer dans une feuille de calcul. Grâce à ces tests, les chercheurs ont évalué la performance de Claude selon trois dimensions : la planification, l'action et l'évaluation.
La performance de Claude est impressionnante lorsqu'il s'agit d'exécuter des tâches complexes. C'est la capacité de formuler un plan clair, de le suivre étape par étape et d'évaluer ses progrès à chaque étape. De plus, il peut coordonner plusieurs applications, telles que la copie de pages Web d'informations dans une feuille de calcul. Dans certains cas, Claude est même capable de revoir les résultats à la fin de la mission pour s'assurer que tout est conforme aux objectifs.
Cependant, Claude commet également quelques erreurs simples que l'utilisateur moyen peut facilement éviter. Par exemple, dans une tâche, l’abonnement n’a pas pu être finalisé car il n’était pas possible de faire défiler la page vers le bas pour trouver le bouton correspondant.
Il y avait également des cas où cela était maladroit lors de l'exécution de tâches évidentes, comme sélectionner et remplacer du texte ou changer les puces en chiffres. De plus, Claude ne se rend parfois pas compte de ses erreurs ou fait des hypothèses erronées sur les raisons pour lesquelles il n'a pas réussi à atteindre ses objectifs.
Les chercheurs ont souligné que les lacunes de Claude dans les mécanismes d'auto-évaluation pourraient être à l'origine de ces erreurs et que le cadre de l'agent GUI pourrait devoir être amélioré à l'avenir pour ajouter des modules d'auto-évaluation plus rigoureux. Les résultats montrent également que les agents GUI existants ne reproduisent pas entièrement les nuances fondamentales de la façon dont les humains utilisent les ordinateurs.
Pour les entreprises, la possibilité d’utiliser un texte simple pour décrire des tâches automatisées est séduisante, mais la technologie n’est pas encore prête pour une adoption à grande échelle. Le comportement du modèle est erratique, ce qui peut entraîner des conséquences imprévisibles dans les applications sensibles. Dans le même temps, effectuer des opérations via une interface conçue par l’homme n’est pas le moyen le plus rapide d’accomplir une tâche.
Avant un déploiement généralisé, les entreprises doivent également s'inquiéter des risques de sécurité posés par le fait de confier des modèles de langage étendus (LLM) à des souris et des claviers. Par exemple, des recherches ont montré que les proxys de réseau sont vulnérables aux attaques contradictoires que les humains peuvent facilement ignorer. Néanmoins, des outils comme Claude peuvent aider les équipes produit à explorer des idées et à itérer sur des solutions, économisant ainsi du temps et de l'argent avant de développer de nouvelles fonctionnalités ou de nouveaux services.
La fonctionnalité « Utilisation de l'ordinateur » de Claude démontre l'énorme potentiel d'avancées de la technologie de l'IA, mais révèle également des marges d'amélioration en termes de fiabilité et de sécurité. À l’avenir, à mesure que la technologie continuera de se développer et de s’améliorer, je crois que les outils d’IA comme Claude serviront mieux les humains, amélioreront l’efficacité et apporteront plus de possibilités.