L'éditeur de Downcodes a appris que des chercheurs de l'Université de Stanford et de l'Université de Hong Kong ont récemment publié un résultat de recherche inquiétant : les agents IA actuels, tels que Claude, sont plus sensibles aux attaques pop-up que les humains. La recherche montre que de simples fenêtres contextuelles peuvent réduire considérablement le taux d'achèvement des tâches des agents IA, ce qui a soulevé de sérieuses inquiétudes quant à la sécurité et à la fiabilité des agents IA, en particulier dans le contexte où ils disposent de plus de capacités pour effectuer des tâches de manière autonome.
Récemment, des chercheurs de l'Université de Stanford et de l'Université de Hong Kong ont découvert que les agents IA actuels (tels que Claude) sont plus sensibles aux interférences des pop-ups que les humains, et que leurs performances chutent même considérablement lorsqu'ils sont confrontés à de simples pop-ups.
Selon les recherches, lorsque l'agent AI fait face à des fenêtres contextuelles conçues dans un environnement expérimental, le taux de réussite moyen des attaques atteint 86 % et le taux de réussite des tâches est réduit de 47 %. Cette découverte soulève de nouvelles inquiétudes quant à la sécurité des agents d’IA, d’autant plus qu’ils disposent d’une plus grande capacité à effectuer des tâches de manière autonome.
Dans cette étude, les scientifiques ont conçu une série de fenêtres contextuelles contradictoires pour tester la réactivité de l'agent AI. La recherche montre que même si les humains peuvent identifier et ignorer ces pop-ups, les agents IA sont souvent tentés et même cliquent sur ces pop-ups malveillants, les empêchant d'accomplir leurs tâches initiales. Ce phénomène affecte non seulement les performances de l'agent AI, mais peut également entraîner des risques de sécurité dans les applications du monde réel.
L'équipe de recherche a utilisé deux plates-formes de test, OSWorld et VisualWebArena, pour injecter des fenêtres contextuelles conçues et observer le comportement de l'agent AI. Ils ont constaté que tous les modèles d’IA testés étaient vulnérables. Afin d'évaluer l'efficacité de l'attaque, les chercheurs ont enregistré la fréquence à laquelle l'agent cliquait sur les fenêtres contextuelles et l'achèvement de ses tâches. Les résultats ont montré que dans des conditions d'attaque, le taux de réussite des tâches de la plupart des agents IA était inférieur à 10. %.
L'étude a également exploré l'impact de la conception des fenêtres contextuelles sur les taux de réussite des attaques. En utilisant des éléments accrocheurs et des instructions spécifiques, les chercheurs ont constaté une augmentation significative des taux de réussite des attaques. Bien qu’ils aient tenté de résister à l’attaque en incitant l’agent IA à ignorer les pop-ups ou à ajouter des logos publicitaires, les résultats n’ont pas été idéaux. Cela montre que le mécanisme de défense actuel est encore très vulnérable aux agents IA.
Les conclusions de l'étude soulignent la nécessité de mécanismes de défense plus avancés dans le domaine de l'automatisation pour améliorer la résistance des agents IA aux logiciels malveillants et aux attaques leurres. Les chercheurs recommandent d'améliorer la sécurité des agents IA grâce à des instructions plus détaillées, en améliorant la capacité d'identifier les contenus malveillants et en introduisant une supervision humaine.
papier:
https://arxiv.org/abs/2411.02391
GitHub :
https://github.com/SALT-NLP/PopupAttack
Les résultats de cette recherche ont une signification importante pour le domaine de la sécurité de l’IA, soulignant l’urgence de renforcer la sécurité des agents d’IA. À l’avenir, davantage de recherches devront se concentrer sur les problèmes de robustesse et de sécurité des agents IA afin de garantir leur fiabilité et leur sécurité dans les applications pratiques. Ce n’est qu’ainsi que le potentiel de l’IA pourra être mieux exploité et les risques potentiels évités.