OpenAI는 위험한 요청을 거부하는 규칙을 사전에 추론하는 새로운 AI 보안 방법을 출시합니다!

저자：Eve Cole 업데이트 시간：2025-01-01 18:16:01

OpenAI의 최신 o-시리즈 AI 모델은 더 깊은 규칙 이해 및 추론 기능을 통해 AI 시스템의 보안을 향상하도록 설계되었습니다. 과거 예시 학습에만 의존했던 것과 달리 이 모델은 보안 지침을 선제적으로 이해하고 적용하여 유해한 요청을 효과적으로 차단할 수 있습니다. 이 기사에서는 o1 모델의 3단계 교육 프로세스와 보안 테스트에서 다른 주류 AI 시스템을 뛰어넘는 성능에 대해 자세히 설명합니다. 그러나 개선된 o1 모델에도 여전히 조작 가능성이 있어 AI 안전 분야의 지속적인 과제가 부각됩니다.

OpenAI는 보안 규칙을 처리하는 방식을 변경하여 AI 시스템의 보안을 향상시키는 것을 목표로 하는 AI 보안에 대한 새로운 접근 방식을 발표했습니다. 이 새로운 O-시리즈 모델은 더 이상 사례를 통해 좋은 행동과 나쁜 행동을 배우는 데만 의존하지 않고 특정 안전 지침을 이해하고 적극적으로 추론할 수 있습니다.

OpenAI 연구의 한 예에서는 사용자가 암호화된 텍스트를 통해 불법 활동에 대한 지침을 얻으려고 시도했을 때 모델이 정보를 성공적으로 디코딩했지만 위반할 보안 규칙을 구체적으로 언급하면서 요청을 거부했습니다. 이 단계별 추론 프로세스는 모델이 관련 안전 지침을 얼마나 효과적으로 따르는지 보여줍니다.

이 o1 모델의 학습 과정은 세 단계로 나누어집니다. 먼저 모델은 도움을 주는 방법을 학습합니다. 다음으로 지도 학습을 통해 모델은 구체적인 안전 지침을 연구합니다. 마지막으로 모델은 강화 학습을 사용하여 이러한 규칙 적용을 연습합니다. 이는 모델이 이러한 안전 지침을 진정으로 이해하고 내면화하는 데 도움이 되는 단계입니다.

OpenAI의 테스트에서 새로 출시된 o1 모델은 보안 측면에서 GPT-4o, Claude3.5Sonnet 및 Gemini1.5Pro와 같은 다른 주류 시스템보다 훨씬 더 나은 성능을 보였습니다. 모델이 유해한 요청을 얼마나 잘 거부하고 적절한 요청을 허용하는지를 포함하는 테스트에서 o1 모델은 정확성과 탈옥 시도에 대한 저항성 모두에서 최고 점수를 획득한 것으로 나타났습니다.

OpenAI 공동 창립자인 보이치에흐 자렘바(Wojciech Zaremba)는 소셜 플랫폼에서 이러한 "사려 깊은 정렬" 작업을 매우 자랑스럽게 생각하며 이러한 종류의 추론 모델이 완전히 새로운 방식으로 정렬될 수 있다고 믿습니다. 특히 일반 인공 지능(AGI)을 개발할 때, 시스템이 인간의 가치와 일치하는지 확인하는 것이 주요 과제입니다.

OpenAI의 발전 주장에도 불구하고 "해방자 플리니우스(Pliny the Liberator)"라는 해커는 새로운 o1 및 o1-Pro 모델도 조작되어 보안 지침을 위반할 수 있음을 보여주었습니다. Pliny는 성인용 콘텐츠를 생성하고 화염병 제조 지침을 공유하는 모델을 성공적으로 확보했지만 시스템은 처음에는 이러한 요청을 거부했습니다. 이러한 사건은 엄격한 규칙이 아닌 확률에 따라 작동하기 때문에 복잡한 AI 시스템을 제어하는 데 어려움이 있음을 강조합니다.

Zaremba는 OpenAI가 AI 안전과 인간 가치와의 일관성을 전담하는 약 100명의 직원을 보유하고 있다고 말했습니다. 그는 경쟁사의 보안 접근 방식, 특히 보안 조치보다 시장 성장을 우선시하는 Elon Musk의 xAI와 최근 적절한 보호 장치 없이 AI 에이전트를 출시한 Anthropic에 대해 의문을 제기했으며 Zaremba는 이것이 OpenAI에 "거대한 부정적인 피드백"을 가져올 것이라고 믿습니다.

공식 블로그: https://openai.com/index/deliberative-alignment/

가장 밝은 부분:

OpenAI의 새로운 o 시리즈 모델은 보안 규칙을 사전에 추론하고 시스템 보안을 향상시킬 수 있습니다.

o1 모델은 유해한 요청 거부와 정확성 측면에서 다른 주류 AI 시스템보다 성능이 뛰어납니다.

개선에도 불구하고 새 모델은 여전히 조작될 수 있으며 보안 문제는 여전히 심각합니다.

전체적으로 OpenAI의 o-시리즈 모델은 AI 보안 분야에서 상당한 진전을 이루었지만 대규모 언어 모델 보안의 복잡성과 지속적인 과제도 노출했습니다. AI 보안 위험에 진정하고 효과적으로 대처하기 위해서는 앞으로도 더 많은 노력이 계속 투자되어야 할 것입니다.