Le soutien de Claude à la manipulation des fonctions informatiques comme un humain montre des avantages et des limites dans la recherche – Article AI

Auteur：Eve Cole Date de mise à jour：2025-01-25 18:48:01

La fonctionnalité Claude « Utilisation de l'ordinateur » d'Anthropic, publiée en octobre, a donné aux agents d'IA des capacités sans précédent pour interagir avec les humains via une interface utilisateur graphique (GUI), qui a attiré une large attention. Cette fonction brise les limites des interfaces API traditionnelles et permet à Claude de contrôler directement l'ordinateur pour effectuer des tâches plus complexes. Des recherches menées par le Show Lab de l'Université nationale de Singapour ont mené un test complet sur Claude pour évaluer ses performances dans différents scénarios, nous montrant ainsi le potentiel et les limites de cette technologie.

Depuis qu'Anthropic a lancé la fonctionnalité « Utilisation de l'ordinateur » de Claude en octobre, les capacités de l'agent IA ont attiré une large attention. Cette fonctionnalité fait de Claude le premier modèle de pointe à interagir via la même interface utilisateur graphique (GUI) qu'un humain.

Claude offre aux utilisateurs un moyen pratique d'automatiser les opérations sans avoir besoin d'une interface API en accédant aux captures d'écran du bureau et en effectuant des tâches via des opérations au clavier et à la souris.

Dans une étude menée par le Show Lab de l'Université nationale de Singapour, les chercheurs ont testé Claude sur diverses tâches, notamment les recherches sur le Web, l'exécution des flux de travail, la productivité au bureau et les jeux vidéo. Ces tâches testaient les capacités de Claude dans différents scénarios, comme rechercher et acheter des articles sur le Web, ou extraire des informations d'un site Web et les insérer dans une feuille de calcul. Grâce à ces tests, les chercheurs ont évalué la performance de Claude selon trois dimensions : la planification, l'action et l'évaluation.

La performance de Claude est impressionnante lorsqu'il s'agit d'exécuter des tâches complexes. C'est la capacité de formuler un plan clair, de le suivre étape par étape et d'évaluer ses progrès à chaque étape. De plus, il peut coordonner plusieurs applications, telles que la copie de pages Web d'informations dans une feuille de calcul. Dans certains cas, Claude est même capable de revoir les résultats à la fin de la mission pour s'assurer que tout est conforme aux objectifs.

Cependant, Claude commet également quelques erreurs simples que l'utilisateur moyen peut facilement éviter. Par exemple, dans une tâche, l’abonnement n’a pas pu être finalisé car il n’était pas possible de faire défiler la page vers le bas pour trouver le bouton correspondant.

Il y avait également des cas où cela était maladroit lors de l'exécution de tâches évidentes, comme sélectionner et remplacer du texte ou changer les puces en chiffres. De plus, Claude ne se rend parfois pas compte de ses erreurs ou fait des hypothèses erronées sur les raisons pour lesquelles il n'a pas réussi à atteindre ses objectifs.

Les chercheurs ont souligné que les lacunes de Claude dans les mécanismes d'auto-évaluation pourraient être à l'origine de ces erreurs et que le cadre de l'agent GUI pourrait devoir être amélioré à l'avenir pour ajouter des modules d'auto-évaluation plus rigoureux. Les résultats montrent également que les agents GUI existants ne reproduisent pas entièrement les nuances fondamentales de la façon dont les humains utilisent les ordinateurs.

Pour les entreprises, la possibilité d’utiliser un texte simple pour décrire des tâches automatisées est séduisante, mais la technologie n’est pas encore prête pour une adoption à grande échelle. Le comportement du modèle est erratique, ce qui peut entraîner des conséquences imprévisibles dans les applications sensibles. Dans le même temps, effectuer des opérations via une interface conçue par l’homme n’est pas le moyen le plus rapide d’accomplir une tâche.

Avant un déploiement généralisé, les entreprises doivent également s'inquiéter des risques de sécurité posés par le fait de confier des modèles de langage étendus (LLM) à des souris et des claviers. Par exemple, des recherches ont montré que les proxys de réseau sont vulnérables aux attaques contradictoires que les humains peuvent facilement ignorer. Néanmoins, des outils comme Claude peuvent aider les équipes produit à explorer des idées et à itérer sur des solutions, économisant ainsi du temps et de l'argent avant de développer de nouvelles fonctionnalités ou de nouveaux services.

Souligner:

1. Claude excelle dans sa capacité à automatiser des tâches complexes grâce à une interface utilisateur graphique.

2. Claude commet des erreurs lors de l'exécution de tâches simples, reflétant l'insuffisance de son mécanisme d'auto-évaluation.

3. À ce stade, cette technologie n’est pas adaptée à une application à grande échelle et les entreprises doivent se méfier des risques potentiels en matière de sécurité.

Dans l'ensemble, la fonctionnalité « Utilisation de l'ordinateur » de Claude démontre le grand potentiel de l'IA dans le domaine de l'automatisation, mais expose également des domaines qui doivent encore être améliorés en termes de stabilité et de sécurité. À l'avenir, avec le développement et l'amélioration continus de la technologie, les agents d'IA comme Claude joueront un rôle important dans davantage de domaines.