최근 Apple의 새로운 AI 시스템인 Apple Intelligence에서 주요 보안 취약점이 노출되었습니다. 개발자 Evan Zhou는 "즉시 주입" 공격을 사용하여 시스템 지침을 성공적으로 우회하고 임의의 프롬프트에 응답하도록 하여 AI 보안에 대한 업계의 광범위한 우려를 불러일으켰습니다. 이 취약점은 AI 시스템 프롬프트 템플릿과 특수 태그의 결함을 악용하고, 궁극적으로 원래 시스템 프롬프트를 포괄하는 새로운 프롬프트를 구성하여 AI 시스템을 성공적으로 제어합니다. 이번 사건은 우리에게 AI 보안의 중요성과 AI 시스템을 설계할 때 고려해야 할 잠재적인 보안 위험을 다시 한번 일깨워준다.
최근 한 개발자가 MacOS15.1Beta1에서 Apple의 새로운 AI 시스템인 Apple Intelligence를 "힌트 주입"이라는 공격 방법을 사용하여 AI가 원래 기능을 우회하여 어떤 프롬프트에도 쉽게 응답할 수 있도록 하는 데 성공했습니다. 이번 사건은 업계의 큰 관심을 끌었습니다.
개발자 Evan Zhou는 YouTube에서 이 취약점의 악용을 시연했습니다. 그의 초기 목표는 텍스트 품질을 다시 작성하고 향상시키는 데 일반적으로 사용되는 Apple Intelligence의 "다시 쓰기" 기능을 사용하는 것이었습니다. 그러나 Zhou가 처음 시도한 "이전 명령 무시" 명령은 작동하지 않았습니다. 놀랍게도 그는 나중에 Reddit 사용자가 공유한 정보를 통해 Apple Intelligence 시스템 프롬프트용 템플릿과 AI의 시스템 역할과 사용자 역할을 구분하는 특수 태그를 발견했습니다.
이 정보를 사용하여 Zhou는 원래 시스템 프롬프트를 무시할 수 있는 프롬프트를 성공적으로 구성했습니다. 그는 사용자 캐릭터를 조기에 종료하고 새로운 시스템 프롬프트를 삽입하여 AI에게 이전 지시를 무시하고 후속 텍스트에 응답하도록 지시했습니다. 여러 번의 시도 끝에 공격은 성공했습니다. Apple Intelligence는 Zhou의 지시에 응답했을 뿐만 아니라 그가 요청하지 않은 정보도 제공하여 힌트 주입이 실제로 작동한다는 것을 증명했습니다.
Evan Zhou도 GitHub에 자신의 코드를 게시했습니다. 이 '힌트 주입' 공격은 AI 시스템에서 새로운 것은 아니지만, 이 문제는 2020년 GPT-3 출시 이후 알려졌으나 아직 완전히 해결되지 않았다는 점을 언급할 가치가 있습니다. Apple Intelligence는 다른 채팅 시스템보다 즉각적인 삽입을 방지하는 더 정교한 작업을 수행하므로 Apple도 어느 정도 칭찬받을 가치가 있습니다. 예를 들어, 많은 채팅 시스템은 채팅 창에 직접 입력하거나 이미지에 숨겨진 텍스트를 통해 쉽게 스푸핑될 수 있습니다. ChatGPT 또는 Claude와 같은 시스템도 특정 상황에서는 여전히 팁 주입 공격을 받을 수 있습니다.
가장 밝은 부분:
개발자 Evan Zhou는 "즉시 주입"을 사용하여 Apple의 AI 시스템을 성공적으로 제어하고 원래 지침을 무시하도록 만들었습니다.
Zhou는 Reddit 사용자가 공유한 프롬프트 정보를 사용하여 시스템 프롬프트를 무시할 수 있는 공격 방법을 구축했습니다.
애플의 AI 시스템은 상대적으로 더 복잡하지만 '즉시 주입' 문제는 완전히 해결되지 않았으며 여전히 업계에서 화제가 되고 있다.
Apple의 Apple Intelligence 시스템은 즉각적인 주입을 방지하는 데 있어 다른 시스템보다 정교하지만 이번 사건으로 인해 보안 취약점이 노출되었으며 AI 보안에는 여전히 지속적인 관심과 개선이 필요하다는 점을 다시 한 번 상기시켜주었습니다. 앞으로 개발자는 AI 시스템의 보안에 더 많은 관심을 기울이고 보다 효과적인 보안 보호 조치를 적극적으로 모색해야 합니다.