El editor de Downcodes se enteró de que investigadores de la Universidad de Stanford y la Universidad de Hong Kong publicaron recientemente un resultado de investigación preocupante: los agentes de IA actuales, como Claude, son más susceptibles a los ataques emergentes que los humanos. Las investigaciones muestran que las ventanas emergentes simples pueden reducir significativamente la tasa de finalización de tareas de los agentes de IA, lo que ha generado serias preocupaciones sobre la seguridad y confiabilidad de los agentes de IA, especialmente en el contexto en el que se les otorgan más capacidades para realizar tareas de forma autónoma.
Recientemente, investigadores de la Universidad de Stanford y la Universidad de Hong Kong descubrieron que los agentes de IA actuales (como Claude) son más susceptibles a la interferencia de ventanas emergentes que los humanos, y su rendimiento incluso cae significativamente cuando se enfrentan a ventanas emergentes simples.
Según la investigación, cuando AI Agent se enfrenta a ventanas emergentes diseñadas en un entorno experimental, la tasa promedio de éxito del ataque alcanza el 86% y la tasa de éxito de la tarea se reduce en un 47%. El descubrimiento plantea nuevas preocupaciones sobre la seguridad de los agentes de IA, especialmente porque se les da más capacidad para realizar tareas de forma autónoma.
En este estudio, los científicos diseñaron una serie de ventanas emergentes adversas para probar la capacidad de respuesta del Agente de IA. Las investigaciones muestran que, aunque los humanos pueden identificar e ignorar estas ventanas emergentes, los agentes de IA a menudo se sienten tentados e incluso hacen clic en estas ventanas emergentes maliciosas, lo que les impide completar sus tareas originales. Este fenómeno no solo afecta el rendimiento del Agente AI, sino que también puede traer riesgos de seguridad en aplicaciones del mundo real.
El equipo de investigación utilizó dos plataformas de prueba, OSWorld y VisualWebArena, para inyectar ventanas emergentes diseñadas y observar el comportamiento del Agente de IA. Descubrieron que todos los modelos de IA probados eran vulnerables. Para evaluar la efectividad del ataque, los investigadores registraron la frecuencia con la que el agente hacía clic en las ventanas emergentes y la finalización de la tarea. Los resultados mostraron que, en condiciones de ataque, la tasa de éxito de la tarea de la mayoría de los agentes de IA era inferior a 10. %.
El estudio también exploró el impacto del diseño de ventanas emergentes en las tasas de éxito de los ataques. Al utilizar elementos llamativos e instrucciones específicas, los investigadores encontraron un aumento significativo en las tasas de éxito de los ataques. Aunque intentaron resistir el ataque solicitando al Agente de IA que ignorara las ventanas emergentes o agregara logotipos publicitarios, los resultados no fueron los ideales. Esto muestra que el mecanismo de defensa actual sigue siendo muy vulnerable a los agentes de IA.
Las conclusiones del estudio resaltan la necesidad de mecanismos de defensa más avanzados en el campo de la automatización para mejorar la resistencia de los agentes de IA al malware y los ataques de señuelo. Los investigadores recomiendan mejorar la seguridad de los agentes de IA mediante instrucciones más detalladas, mejorar la capacidad de identificar contenido malicioso e introducir la supervisión humana.
papel:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/SALT-NLP/PopupAttack
Los resultados de esta investigación tienen un importante significado de advertencia para el campo de la seguridad de la IA, destacando la urgencia de fortalecer la seguridad de los agentes de IA. En el futuro, es necesario realizar más investigaciones sobre la solidez y la seguridad de los agentes de IA para garantizar su confiabilidad y seguridad en aplicaciones prácticas. Sólo así se podrá aprovechar mejor el potencial de la IA y evitar posibles riesgos.