"Body Constitution Classifier": Models의 탈옥에 대한 모델의 95%를 성공적으로 차단하는 "Body Constitution Classifier": AI 기사

저자：Eve Cole 업데이트 시간：2025-02-16 07:48:01

Anthropic의 최신 "신체 분류기"는 AI 보안 보호에 새로운 혁신을 가져 왔습니다. 이 기술은 "Universal Jailbreak"공격에 효과적으로 저항하고 AI 모델이 유해한 컨텐츠를 생성하지 못하도록 설계되었습니다. 대규모 테스트를 통해 183 명의 참가자는 여전히 높은 보너스와 충분한 시간의 인센티브에 따라 시스템의 보안 보호를 완전히 우회 할 수 없었으며, 이는 "물리적 분류기"의 강력한 방어 기능을 완전히 보여주었습니다. 이 기사는 "물리 헌법 분류기"의 작업 원칙, 개선 프로세스 및 향후 개발 방향에 대한 심층적 인 논의를 수행 할 것입니다.

인공 지능 회사 인 Anthropic은 최근 언어 모델을 악의적 인 조작으로부터 보호하기 위해 "Body Constitution Classifier"라는 새로운 보안 방법의 개발을 발표했습니다. 이 기술은 특히 AI 모델이 유해한 콘텐츠를 생성하지 못하도록 모든 보안 조치를 체계적으로 우회하려는 입력 방법 인 "Universal Jailbreak"를 목표로합니다.

이 기술의 효과를 확인하기 위해 Anthropic은 대규모 테스트를 수행했습니다. 이 회사는 183 명의 참가자를 모집하여 2 개월 이내에 방어 시스템을 뚫려고 노력했습니다. 참가자들은 AI 모델 Claude 3.5를 얻으려고 노력하여 특정 질문을 입력하여 금지 된 10 가지 질문에 답변했습니다. 최대 15,000 달러의 보너스와 약 3,000 시간의 테스트 시간을 제공 함에도 불구하고 참가자는 Anthropic의 보안 조치를 완전히 우회 할 수 없었습니다.

Claude2，Anthropic，人工智能，聊天机器人克劳德

도전에서 발전하십시오

Anthropic의 초기 버전의 "Body Constitution Classifier"는 두 가지 주요 문제가있었습니다. 하나는 위험한 요청으로 너무 많은 무해한 요청을 잘못 판단하고 다른 하나는 많은 양의 컴퓨팅 리소스를 요구하는 것이 었습니다. 개선 후, 새로운 분류기는 잘못 판단 속도를 크게 줄이고 컴퓨팅 효율을 최적화합니다. 그러나 자동 테스트에 따르면 개선 된 시스템이 탈옥 시도의 95% 이상을 성공적으로 차단했지만 컴퓨팅 전력의 23.7%가 추가로 실행해야합니다. 대조적으로, 보호되지 않은 클로드 모델은 탈옥 시도의 86%가 통과하려고합니다.

합성 데이터를 기반으로 한 교육

"헌법 분류기"의 핵심은 사전 정의 된 규칙 ( "헌법"이라고 함)을 사용하여 허용 및 금지를 구별하는 것입니다. 이 시스템은 여러 언어와 스타일로 합성 교육 예를 생성하여 의심스러운 입력을 식별하도록 분류기를 훈련시킵니다. 이 접근법은 시스템의 정확성을 향상시킬뿐만 아니라 다양한 공격을 처리하는 능력을 향상시킵니다.

상당한 진전에도 불구하고, 의인성 연구원들은이 시스템이 완벽하지 않다는 것을 인정합니다. 그것은 모든 유형의 보편적 탈옥 공격에 대처하지 못할 수 있으며, 앞으로 새로운 공격 방법이 나타날 수 있습니다. 따라서 Anthropic은보다 포괄적 인 보호를 제공하기 위해 다른 안전 조치와 함께 "헌법 분류기"를 사용하는 것이 좋습니다.

공개 테스트 및 향후 전망

시스템의 강점을 더욱 테스트하기 위해, 인류는 2025 년 2 월 3 일과 10 일 사이에 공개 데모 버전을 출시 할 계획으로 보안 전문가들이이를 깨뜨 리도록 초대했습니다. 테스트 결과는 후속 업데이트에서 발표됩니다. 이러한 움직임은 기술 투명성에 대한 Anthropic의 헌신을 보여줄뿐만 아니라 AI 보안 분야의 연구를위한 귀중한 데이터를 제공합니다.

Anthropic의 "신체 분류기"는 AI 모델의 보안 보호에서 중요한 진보를 나타냅니다. AI 기술의 빠른 발전으로 모델 남용을 효과적으로 방지하는 방법은 산업의 관심의 초점이되었습니다. Anthropic의 혁신은이 도전에 대한 새로운 솔루션을 제공하는 동시에 향후 AI 보안 연구의 방향을 지적합니다.

Anthropic의 "Body Classifier"는 AI Security 분야에 대한 새로운 벤치 마크를 설정하고 공개 테스트 및 지속적인 개선 개념은 학습 할 가치가 있습니다. 앞으로 기술의 지속적인 개발과 보안 위협의 발전으로 "물리적 분류기"의 개선 및 업그레이드는 AI 보안을 보장하는 데 더 중요한 역할을 할 것입니다.