이 기사에서는 Anthropic의 AI 모델 Claude 3.5 보안 보호 시스템의 테스트 결과에 대해 설명합니다. 연구원들은 6 일간의 공개 도전을 통해 새로운 안전 메커니즘 인 체격 분류기의 효과를 테스트했습니다. 참가자들은 Claude 3.5의 모든 보안 보호 조치를 우회하려고 시도했으며 마지막으로 8 개의 보안 수준 모두를 성공적으로 파괴하여 AI 보안 보호에 대한 심층적 인 토론을 시작했습니다. 도전자는 성공적으로 획기적인 획기적인 결과를 얻었지만 일반적인 "탈옥 방법"은 발견되지 않았으며, 이는 AI 보안 보호에 여전히 도전이 있음을 보여 주지만 완전히 깨지는 것은 아닙니다.
불과 6 일 만에 참가자들은 AI (Anthropic Intificial Intelligence) 모델 클로드 3.5의 모든 보안 보호 조치를 성공적으로 우회했습니다. 전 OpenAI Alignment 팀원 인 Jan Leike는 현재 인류를 위해 일하고 있으며 참가자가 8 개의 보안 수준을 모두 성공적으로 파산했다고 X 플랫폼에서 발표했습니다. 이 집단적 노력에는 약 3,700 시간의 테스트와 참가자로부터 300,000 개의 메시지가 포함되었습니다.
도전자의 성공적인 혁신에도 불구하고 Leike는 모든 보안 문제를 한 번에 해결하기 위해 공통 "탈옥 방법"을 제안 할 수 없었다고 강조했다. 이것은 돌파구에도 불구하고 모든 보안 보호를 우회 할 수있는 보편적 인 방법을 찾을 수있는 방법이 여전히 없음을 의미합니다.
물리 분류기의 도전과 개선
AI 기술이 점점 더 강력 해짐에 따라, 특히 유해한 생산량에 관해서는 조작 및 학대로부터 보호하는 방법이 점점 더 중요한 문제가되었습니다. Anthropic은 일반적인 탈옥의 발생을 방지하기 위해 헌법 분류자인 새로운 보안 방법을 개발했습니다. 이 방법은 사전 설정 규칙을 사용하여 입력 컨텐츠가 모델을 조작 할 수 있는지 여부를 결정하여 위험한 응답을 방지합니다.
이 시스템의 효과를 테스트하기 위해 Claude 3.5 모델의 보안 보호를 통해 2 개월 동안 183 명의 참가자를 모집했습니다. 참가자들은 보안 메커니즘을 우회하도록 요청하여 Claude가 10 개의 "금기 질문"에 답변했습니다. 15,000 달러의 보너스와 거의 3,000 시간의 테스트를 제공했지만 모든 보안 보호를 우회 할 수 없었습니다.
헌법 분류기의 이전 버전에는 위험한 요청으로서의 무해한 요청의 오류 및 많은 컴퓨팅 능력의 필요성을 포함하여 몇 가지 문제가있었습니다. 그러나 후속 개선으로 인해 이러한 문제는 효과적으로 해결되었습니다. 테스트 데이터에 따르면 조작 시도의 86%가 보호되지 않은 Claude 모델에서 전달되었지만 보호 버전은 조작 시도의 95% 이상을 방지했지만 시스템에는 여전히 높은 컴퓨팅 전력이 필요합니다.
합성 교육 데이터 및 향후 보안 문제
보안 시스템은 사전 정의 된 규칙을 사용하여 합성 교육 데이터를 기반으로하여 어떤 입력이 허용되고 금지되는지를 결정하는 모델의 "헌법"을 구축합니다. 이러한 합성 예를 통해 훈련 된 분류기는 의심스러운 입력을 효과적으로 식별 할 수 있습니다. 그러나 연구원들은이 시스템이 완벽하지 않으며 모든 형태의 보편적 탈옥 공격에 대처할 수 없다는 것을 인정하므로 다른 보안 조치와 함께 사용하는 것이 좋습니다.
시스템의 검증을 더욱 강화하기 위해 Anthropic은 2025 년 2 월 3 일과 10 일 사이에 공개 데모 버전을 발표하여 보안 전문가가 도전에 참여하도록 초대하며 결과는 후속 업데이트를 통해 귀하와 공유 될 것입니다.
AI Security에 대한이 콘테스트는 AI 모델 보호의 큰 도전과 복잡성을 보여줍니다. 기술의 지속적인 발전으로 인해 AI 산업이 긴급하게 해결 해야하는 중요한 문제가 여전히 중요한 문제가되면서 모델의 기능을 향상시키는 방법.
요컨대,이 보안 문제의 결과는 AI 보안 보호의 결점을 보여줄뿐만 아니라 AI 보안 개선에 대한 Anthropic의 노력과 진보를 보여줍니다. 앞으로 AI 보안은 여전히 진화하는 문제를 해결하기 위해 지속적으로 개선되고 개선되어야합니다.