OpenAI는 o1 시리즈의 후속 모델이자 더 깊은 사고를 통해 질문에 대한 답변의 정확성을 향상시키도록 설계된 차세대 추론 모델 o3과 간소화된 버전 o3-mini를 출시했습니다. o3는 ARC-AGI 벤치마크에서 획기적인 발전을 이루며 거의 인간 수준의 문제 해결 능력을 입증했습니다. o3-mini는 속도와 비용 효율성에 중점을 두고 있으며 특히 프로그래밍 작업에 적합합니다. o3 시리즈 모델은 대중에게 직접 출시되지 않지만 OpenAI는 미리보기를 위해 보안 연구원에게 공개했습니다.
o3 모델은 여러 벤치마크에서 좋은 성능을 발휘합니다. 예를 들어 SWE-bench Verified 벤치마크의 정확도는 o1보다 20% 이상 높으며 경쟁 수학 및 GPQA Diamond의 정확도도 크게 향상되었습니다. OpenAI는 또한 모델 보안과 보안 사양 준수를 보장하기 위해 "심의적 정렬"이라는 새로운 보안 평가 방법을 도입했습니다. 현재 OpenAI는 외부 보안 테스트를 진행 중이며 얼리 액세스 애플리케이션을 오픈했습니다.
프로그래밍 및 수학적 문제 해결 측면에서 o3 모델은 놀라운 기능을 보여주었습니다. SWE-bench Verified 벤치마크에서 o3의 정확도는 약 71.7%로 o1 모델보다 20% 이상 높습니다. 대회 코드에서 o3은 2727의 Elo 점수를 받은 반면, o1은 1891만을 받았습니다. 또한 o3의 경쟁 수학 정확도는 96.7%에 달했고, GPQA 다이아몬드 정확도는 87.7%에 달해 o1보다 거의 10% 더 높았습니다.
OpenAI는 또한 새로운 보안 평가 방법인 심의적 정렬(Deliverative Alignment)을 도입했습니다. 이는 모델 보안 사양을 직접 가르치고 모델이 사양을 명시적으로 기억하고 대답하기 전에 정확하게 추론을 수행하도록 모델을 훈련할 수 있는 새로운 패러다임입니다. 이 접근 방식은 OpenAI의 o-시리즈 모델을 정렬하고 OpenAI의 보안 정책을 매우 정확하게 준수하는 데 사용됩니다.
현재 OpenAI는 외부 보안 테스트를 추진하고 있으며 웹사이트에 조기 액세스 애플리케이션을 개설했습니다. 신청자는 온라인 양식을 작성하고 관련 정보를 제공해야 합니다. 선정된 연구원에게는 o3 및 o3-mini에 대한 액세스 권한이 부여되어 자신의 역량을 탐색하고 보안 평가에 기여할 수 있습니다.
OpenAI o3 시리즈 모델의 출시는 인공지능 추론 능력이 크게 향상되었으며, 여러 분야에서 뛰어난 성능을 발휘하여 미래 AI 기술 개발의 새로운 방향을 제시합니다. 앞으로도 o3 시리즈 모델의 발전과 적용에 계속해서 주목하겠습니다.