최근 Stanford University와 University of Hong Kong의 연구원들은 Claude와 같은 현재 AI 요원의 주요 보안 취약성을 발견 한 논문을 발표했습니다. 연구에 따르면 간단한 팝업 창은 AI 에이전트의 작업 완료율을 크게 줄이고 작업이 완전히 실패 할 수 있습니다. 이로 인해 AI 에이전트의 실제 응용 분야의 보안 문제에 대한 우려가 제기되었습니다.
최근 Stanford University와 University of Hong Kong의 연구원들은 현재 AI 요원 (Claude)이 인간보다 팝업에 더 취약하며 간단한 팝업에 직면 할 때 공연조차도 크게 떨어 졌다는 것을 발견했습니다.
Research에 따르면, AI 에이전트가 실험 환경에서 설계된 팝업 윈도우에 직면 할 때, 평균 공격 성공률은 86%에 도달하고 작업 성공률을 47%줄입니다. 이 발견은 AI 에이전트 보안에 대한 새로운 우려를 불러 일으켰습니다. 특히 작업을 자율적으로 수행 할 수있는 능력이 더 많을 때.
이 연구에서 과학자들은 AI 에이전트의 반응성을 테스트하기 위해 일련의 적대 팝업을 설계했습니다. 연구에 따르면 인간은 이러한 팝업을 식별하고 무시할 수 있지만 AI 요원은 종종 이러한 악의적 인 팝업을 클릭하여 원래의 작업을 완료하지 못하게합니다. 이 현상은 AI 에이전트의 성능에 영향을 줄뿐만 아니라 실제 응용 분야에서 안전 위험을 초래할 수 있습니다.
연구팀은 Osworld와 VisualWebarena의 두 가지 테스트 플랫폼을 사용하여 설계된 팝업을 주입하여 AI 에이전트의 동작을 관찰했습니다. 그들은 테스트와 관련된 모든 AI 모델이 취약하다는 것을 발견했습니다. 공격의 영향을 평가하기 위해 연구원들은 에이전트 클릭 팝업 창의 빈도와 작업 완료의 경우 대부분의 AI 에이전트의 작업 성공률이 10%미만인 것으로 나타났습니다.
이 연구는 또한 팝업 창 디자인이 공격 성공률에 미치는 영향을 탐구합니다. 설득력있는 요소와 특정 지침을 사용함으로써 연구원들은 공격 성공률이 크게 증가한 것을 발견했습니다. 그들은 AI 에이전트가 팝업을 무시하거나 광고 로고를 추가하도록 촉구하여 공격에 저항하려고 시도했지만 결과는 이상적이지 않았습니다. 이것은 현재 방어 메커니즘이 여전히 AI 에이전트에 매우 연약하다는 것을 보여준다.
이 연구의 결론은 Alwary 및기만 공격에 대한 AI 에이전트의 탄력성을 향상시키기 위해 자동화 분야에서보다 진보 된 방어 메커니즘의 필요성을 강조합니다. 연구원들은보다 자세한 지침을 통해 AI 에이전트의 보안을 향상시키고, 악의적 인 콘텐츠를 식별 할 수있는 능력을 향상시키고, 인간 감독을 도입하는 것이 좋습니다.
종이:
https://arxiv.org/abs/2411.02391
Github :
https://github.com/salt-nlp/popupattack
핵심 사항 :
팝업에 직면 할 때 AI 에이전트의 공격 성공률은 86%정도로 높으며 이는 인간의 것보다 낮습니다.
연구에 따르면 현재의 방어 조치는 AI 에이전트에 거의 효과가 없으며 보안을 긴급하게 개선해야합니다.
이 연구는 에이전트가 악의적 인 내용과 인간 감독을 식별하는 능력 향상과 같은 방어 제안을 제안합니다.
연구 결과는 AI 에이전트의 보안에 심각한 도전을 제기하고 미래의 AI 보안 연구의 방향을 지적합니다. 즉, 악성 팝업과 같은 공격으로부터 AI 에이전트를 보호하기 위해보다 효과적인 방어 메커니즘을 개발해야합니다. 안전하고 안정적으로 작동합니다. 후속 연구는 AI 에이전트의 악성 콘텐츠를 식별하는 능력을 향상시키는 방법과 수동 감독을 효과적으로 결합하는 방법에 중점을 두어야합니다.