OpenAI의 최신 모델인 o3는 ARC-AGI 벤치마크에서 표준 컴퓨팅 조건에서 75.7%, 고성능 컴퓨팅 버전에서 87.5%의 높은 점수를 얻어 인상적인 결과를 얻었습니다. 이 결과는 이전의 모든 모델을 훨씬 능가하며 AI 연구 분야에서 광범위한 관심을 끌었습니다. ARC-AGI 벤치마크는 AI 시스템이 새로운 작업에 적응하고 유동적 지능을 보여주는 능력을 평가하기 위해 설계되었습니다. 이는 매우 어렵고 AI 평가에서 가장 어려운 표준 중 하나로 간주됩니다. o3의 획기적인 성능은 의심할 여지 없이 AI 개발에 새로운 방향과 가능성을 제시하지만, 이것이 AGI에 균열이 발생했다는 의미는 아닙니다.
OpenAI가 출시한 최신 모델 o3는 ARC-AGI 벤치마크에서 표준 컴퓨팅 조건에서 무려 75.7%의 높은 점수를 기록하는 놀라운 결과를 얻었고, 고성능 버전은 87.5%에 이르렀습니다. 이 성과는 AI 연구계를 놀라게 했지만, 아직까지 인공지능 일반성(AGI)이 깨졌음을 입증하지는 못했다.
ARC-AGI 벤치마크는 새로운 작업에 적응하고 유동적 지능을 입증하는 AI 시스템의 능력을 평가하기 위해 설계된 테스트인 Abstract Reasoning Corpus를 기반으로 합니다. ARC는 객체, 경계, 공간 관계 등 기본 개념의 이해가 필요한 일련의 시각적 퍼즐로 구성됩니다. 인간은 이러한 퍼즐을 쉽게 풀 수 있지만 현재 AI 시스템은 이와 관련하여 큰 어려움에 직면해 있습니다. ARC는 AI 평가에서 가장 어려운 기준 중 하나로 간주됩니다.
o3는 이전 모델보다 훨씬 더 나은 성능을 발휘합니다. ARC-AGI에서 o1-preview와 o1 모델의 최고 점수는 32%입니다. 이에 앞서 제레미 버먼(Jeremy Berman) 연구원은 클로드3.5소네트(Claude3.5Sonnet)와 유전자 알고리즘을 결합한 하이브리드 방식을 사용해 53%의 점수를 얻었고, o3의 등장은 AI 역량의 비약으로 여겨졌다.
ARC의 창립자인 프랑수아 숄레(François Chollet)는 o3의 AI 역량의 질적 변화를 높이 평가했으며, 새로운 업무 적응 능력이 전례 없는 수준에 도달했다고 평가했다.
o3의 성능은 좋지만 계산 비용도 상당히 높습니다. 낮은 컴퓨팅 구성에서 각 퍼즐을 해결하는 데 드는 비용은 17~20달러이며, 높은 컴퓨팅 구성에서는 수십억 개의 토큰을 사용하여 계산 비용이 172배로 증가합니다. 그러나 추론 비용이 점차 감소함에 따라 이러한 오버헤드는 더욱 합리적이 될 수 있습니다.
현재 o3가 어떻게 이러한 혁신을 달성했는지에 대한 자세한 내용은 없습니다. 일부 과학자들은 o3가 연쇄 사고와 검색 메커니즘을 결합한 프로그램 합성 방법을 사용할 수 있다고 추측합니다. 다른 과학자들은 o3가 단순히 강화 학습을 더욱 확장함으로써 나올 수 있다고 믿습니다.
o3가 ARC-AGI에 대해 상당한 진전을 이루었지만 Chollet은 ARC-AGI가 AGI 테스트가 아니며 o3가 아직 AGI 표준에 도달하지 못했다고 강조했습니다. 일부 간단한 작업에서는 여전히 성능이 좋지 않아 인간 지능과 근본적인 차이점을 보여줍니다. 또한 o3는 추론 과정에서 여전히 외부 검증에 의존하고 있으며 이는 AGI의 독립적인 학습 능력과는 거리가 멀습니다.
Chollet 팀은 o3의 기능을 테스트하기 위해 새로운 도전적인 벤치마크를 개발하고 있으며 점수를 30% 미만으로 낮출 것으로 예상합니다. 그는 진정한 AGI란 인간에게는 간단하지만 AI에게는 어려운 작업을 만드는 것이 거의 불가능하다는 것을 의미한다고 지적합니다.
가장 밝은 부분:
o3는 ARC-AGI 벤치마크 테스트에서 75.7%라는 높은 점수를 획득해 이전 모델을 능가했습니다.
o3에서 각 퍼즐을 해결하는 데 드는 비용은 미화 17~20달러에 달하며 이는 엄청난 양의 계산입니다.
o3의 성능은 좋지만 전문가들은 아직 AGI 표준에 도달하지 못했다고 강조합니다.
전체적으로 ARC-AGI 테스트에서 o3 모델의 탁월한 성능은 추상적 추론 능력에서 인공 지능의 상당한 발전을 보여 주지만 이는 진정한 AGI로 가는 길의 작은 단계일 뿐입니다. AGI의 높은 계산 비용과 핵심 문제를 해결하기 위한 향후 연구는 계속해서 탐구되어야 합니다.