Downcodes의 편집자는 스탠포드 대학교와 홍콩 대학교의 연구원들이 최근 우려스러운 연구 결과를 발표했다는 사실을 알게 되었습니다. 클로드와 같은 현재의 AI 에이전트는 인간보다 팝업 공격에 더 취약하다는 것입니다. 연구에 따르면 단순한 팝업은 AI 에이전트의 작업 완료율을 크게 낮출 수 있으며, 이는 특히 자율적으로 작업을 수행할 수 있는 더 많은 기능이 부여되는 상황에서 AI 에이전트의 보안 및 신뢰성에 대한 심각한 우려를 불러일으켰습니다.
최근 스탠포드 대학과 홍콩 대학 연구진은 현재의 AI 에이전트(예: 클로드)가 인간보다 팝업 간섭에 더 취약하고, 단순한 팝업에 직면하면 성능이 크게 저하된다는 사실을 발견했습니다.
연구에 따르면 AI 에이전트가 실험 환경에서 설계된 팝업창을 마주했을 때 평균 공격 성공률은 86%에 달하고, 작업 성공률은 47% 감소하는 것으로 나타났다. 이번 발견은 AI 에이전트의 안전성에 대한 새로운 우려를 불러일으켰습니다. 특히 자율적으로 작업을 수행할 수 있는 능력이 더 많이 부여되었기 때문입니다.
본 연구에서 과학자들은 AI 에이전트의 반응성을 테스트하기 위해 일련의 적대적 팝업을 설계했습니다. 연구에 따르면 인간은 이러한 팝업을 식별하고 무시할 수 있지만 AI 에이전트는 종종 유혹에 빠져 이러한 악성 팝업을 클릭하여 원래 작업을 완료하지 못하는 것으로 나타났습니다. 이러한 현상은 AI Agent의 성능에 영향을 미칠 뿐만 아니라, 실제 애플리케이션에 보안 위험을 가져올 수도 있습니다.
연구팀은 OSWorld와 VisualWebArena라는 두 가지 테스트 플랫폼을 사용하여 설계된 팝업창을 주입하고 AI 에이전트의 동작을 관찰했습니다. 그들은 테스트된 모든 AI 모델이 취약하다는 것을 발견했습니다. 공격의 효율성을 평가하기 위해 연구원들은 에이전트가 팝업 창을 클릭하는 빈도와 작업 완료를 기록했으며, 그 결과 공격 조건에서 대부분의 AI 에이전트의 작업 성공률은 10 미만인 것으로 나타났습니다. %.
또한 이 연구에서는 팝업 창 디자인이 공격 성공률에 미치는 영향을 조사했습니다. 눈길을 끄는 요소와 구체적인 지침을 사용함으로써 연구원들은 공격 성공률이 크게 증가하는 것을 발견했습니다. AI 에이전트에게 팝업을 무시하거나 광고 로고를 추가하도록 유도해 공격에 저항하려 했으나 결과는 좋지 않았다. 이는 현재의 방어 메커니즘이 여전히 AI 에이전트에 매우 취약하다는 것을 보여줍니다.
이 연구의 결론은 악성 코드 및 미끼 공격에 대한 AI 에이전트의 저항력을 향상시키기 위해 자동화 분야에서 보다 발전된 방어 메커니즘의 필요성을 강조합니다. 연구원들은 보다 자세한 지침을 통해 AI 에이전트의 보안을 강화하고, 악성 콘텐츠 식별 능력을 향상시키며, 사람의 감독을 도입할 것을 권장합니다.
종이:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/SALT-NLP/PopupAttack
이번 연구 결과는 AI 보안 분야에 있어 중요한 경고적 의미를 가지며, AI 에이전트 보안 강화의 시급성을 강조한다. 앞으로는 실제 응용 분야에서 신뢰성과 보안을 보장하기 위해 AI 에이전트의 견고성과 보안 문제에 초점을 맞춘 더 많은 연구가 필요합니다. 이런 방식으로만 AI의 잠재력을 더 잘 활용하고 잠재적인 위험을 피할 수 있습니다.