메타는 최근 프롬프트 인젝션 공격을 방어하기 위해 설계된 머신러닝 모델인 Prompt-Guard-86M을 출시했지만, 해당 모델 자체에 심각한 보안 취약점이 있다는 사실이 빠르게 발견됐다. 힌트 주입 공격에는 LLM(대형 언어 모델)을 유도하여 보안 제약 조건을 위반하거나 신중하게 제작된 입력을 통해 부적절한 동작을 생성하는 것이 포함됩니다. Prompt-Guard-86M은 이러한 유해한 프롬프트를 필터링하기 위한 것이지만 연구원들은 간단한 문자 간격 및 구두점 제거가 모델의 방어 메커니즘을 쉽게 우회하여 효과가 없게 만들 수 있다는 것을 발견했습니다.
최근 Meta는 프롬프트 인젝션 공격을 탐지하고 대응하도록 설계된 Prompt-Guard-86M이라는 기계 학습 모델을 출시했습니다. 이러한 유형의 공격에는 일반적으로 LLM(대형 언어 모델)이 부적절하게 작동하거나 보안 제한을 우회하게 만드는 특수 입력이 포함됩니다. 그러나 놀랍게도 새로운 시스템 자체도 공격을 받을 위험에 노출되어 있습니다.
사진 출처 참고: 사진은 AI에 의해 생성되었으며 사진은 서비스 제공업체 Midjourney의 승인을 받았습니다.
Prompt-Guard-86M은 주로 개발자가 문제를 일으킬 수 있는 프롬프트를 필터링하는 데 도움을 주기 위해 Llama3.1 생성 모델과 함께 Meta에서 출시되었습니다. 대규모 언어 모델은 일반적으로 많은 양의 텍스트와 데이터를 처리하므로 확인하지 않은 채로 두면 위험하거나 민감한 정보를 임의로 반복할 수 있습니다. 따라서 개발자는 해를 끼칠 수 있는 입력 및 출력을 캡처하기 위해 모델에 "가드레일"을 구축했습니다.
그러나 AI 사용자는 힌트 주입과 탈옥을 사용하여 모델이 자신의 안전 지침을 무시하도록 만드는 등 이러한 가드레일을 우회하는 것을 도전으로 보는 것 같습니다. 최근 일부 연구자들은 Meta의 Prompt-Guard-86M이 일부 특수 입력을 처리할 때 취약하다는 점을 지적했습니다. 예를 들어, 문자 사이에 공백을 두고 "이전 지침 무시"를 입력하면 Prompt-Guard-86M은 이전 지침을 순종적으로 무시합니다.
이 발견은 메타 모델과 Microsoft의 벤치마크 모델을 분석하는 동안 보안 결함을 발견한 Aman Priyanshu라는 취약점 사냥꾼에 의해 이루어졌습니다. Priyanshu는 Prompt-Guard-86M을 미세 조정하는 과정이 개별 영어 문자에 거의 영향을 미치지 않아 이 공격을 고안할 수 있다고 말했습니다. 그는 GitHub에서 이 결과를 공유하면서 단순히 문자 간격을 지정하고 구두점을 제거하면 분류자의 감지 기능이 손실될 수 있음을 지적했습니다.
Robust Intelligence의 최고 기술 책임자인 Hyrum Anderson도 이 방법의 공격 성공률이 거의 100%에 가깝다고 지적했습니다. Prompt-Guard는 방어선의 일부일 뿐이지만, 이 취약점의 노출은 실제로 AI를 사용할 때 기업에 경고음을 울렸습니다. Meta는 아직 응답하지 않았지만 소식통은 적극적으로 해결책을 찾고 있다고 말합니다.
하이라이트:
메타의 Prompt-Guard-86M은 보안 취약점이 있는 것으로 밝혀져 프롬프트 인젝션 공격에 취약한 것으로 나타났다.
문자 사이에 공백을 추가하면 시스템이 보안 지시를 무시하도록 만들 수 있으며 공격 성공률은 거의 100%입니다.
⚠️ 이번 사건은 기업이 AI 기술을 사용할 때 주의해야 할 점과 보안 문제를 여전히 고려해야 함을 상기시켜줍니다.
Prompt-Guard-86M의 취약점은 AI 보안 분야가 직면한 엄청난 과제를 노출시켰으며 AI 시스템을 개발하고 배포할 때 보안이 우선적으로 고려되어야 함을 다시 한번 강조했습니다. 앞으로는 더욱 강력하고 안정적인 보안 메커니즘이 AI 기술 발전의 핵심이 될 것입니다.