O editor do Downcodes descobriu que pesquisadores da Universidade de Stanford e da Universidade de Hong Kong divulgaram recentemente um resultado de pesquisa preocupante: os atuais agentes de IA, como Claude, são mais suscetíveis a ataques pop-up do que os humanos. A investigação mostra que simples pop-ups podem reduzir significativamente a taxa de conclusão de tarefas dos Agentes de IA, o que levantou sérias preocupações sobre a segurança e fiabilidade dos Agentes de IA, especialmente no contexto em que lhes são dadas mais capacidades para executar tarefas de forma autónoma.
Recentemente, pesquisadores da Universidade de Stanford e da Universidade de Hong Kong descobriram que os atuais agentes de IA (como Claude) são mais suscetíveis à interferência de pop-ups do que os humanos, e seu desempenho cai significativamente quando confrontados com simples pop-ups.
De acordo com a pesquisa, quando o AI Agent enfrenta janelas pop-up projetadas em um ambiente experimental, a taxa média de sucesso do ataque chega a 86% e a taxa de sucesso da tarefa é reduzida em 47%. A descoberta levanta novas preocupações sobre a segurança dos agentes de IA, especialmente porque lhes é dada mais capacidade para executar tarefas de forma autónoma.
Neste estudo, os cientistas projetaram uma série de pop-ups adversários para testar a capacidade de resposta do agente de IA. A investigação mostra que, embora os humanos possam identificar e ignorar estes pop-ups, os Agentes de IA são frequentemente tentados e até clicam nestes pop-ups maliciosos, impedindo-os de completar as suas tarefas originais. Este fenômeno não afeta apenas o desempenho do Agente de IA, mas também pode trazer riscos de segurança em aplicações do mundo real.
A equipe de pesquisa usou duas plataformas de teste, OSWorld e VisualWebArena, para injetar janelas pop-up projetadas e observar o comportamento do Agente de IA. Eles descobriram que todos os modelos de IA testados eram vulneráveis. Para avaliar a eficácia do ataque, os pesquisadores registraram a frequência com que o agente clicava nas janelas pop-up e a conclusão da tarefa. Os resultados mostraram que, sob condições de ataque, a taxa de sucesso da tarefa da maioria dos Agentes de IA era inferior a 10. %.
O estudo também explorou o impacto do design de janelas pop-up nas taxas de sucesso de ataques. Ao usar elementos atraentes e instruções específicas, os pesquisadores descobriram um aumento significativo nas taxas de sucesso de ataques. Embora tenham tentado resistir ao ataque solicitando ao Agente de IA que ignorasse pop-ups ou adicionasse logotipos publicitários, os resultados não foram ideais. Isto mostra que o atual mecanismo de defesa ainda é muito vulnerável aos Agentes de IA.
As conclusões do estudo destacam a necessidade de mecanismos de defesa mais avançados no campo da automação para melhorar a resistência dos agentes de IA a ataques de malware e isca. Os investigadores recomendam aumentar a segurança dos agentes de IA através de instruções mais detalhadas, melhorando a capacidade de identificar conteúdos maliciosos e introduzindo supervisão humana.
papel:
https://arxiv.org/abs/2411.02391
Github:
https://github.com/SALT-NLP/PopupAttack
Os resultados desta investigação têm um importante significado de alerta para o domínio da segurança da IA, destacando a urgência de reforçar a segurança dos Agentes de IA. No futuro, mais investigação terá de se concentrar nas questões de robustez e segurança dos Agentes de IA para garantir a sua fiabilidade e segurança em aplicações práticas. Só desta forma o potencial da IA poderá ser melhor utilizado e os riscos potenciais evitados.