일반 인공지능(AGI)의 추상화 및 추론 능력을 평가하기 위해 고안된 벤치마크인 ARC-AGI가 최근 진전을 이루었지만, 이를 만든 프랑수아 숄레(Francois Cholet)는 이것이 AGI가 다가오고 있다는 의미는 아니라는 점을 상기시켜 줍니다. 그는 ARC-AGI 테스트에서 현재 AI 시스템의 성능은 아직 기대에 훨씬 못 미치며, 주된 이유는 실제 추론보다 패턴 인식이 더 뛰어난 LLM(대형 언어 모델)의 한계 때문이라고 지적했습니다. Sholay와 그의 협력자들은 ARC-AGI에서 오픈 소스 AI 혁신을 촉진하기 위해 100만 달러 규모의 경쟁을 시작했지만 결과는 테스트 자체에 단점이 있을 수 있으며 추가 개선이 필요하다는 점도 확인했습니다.
ARC-AGI는 2019년 출시 이후 인공지능 분야에서 주목을 받아왔다. AI 시스템은 테스트에서 어느 정도 진전을 이루었지만 점수는 여전히 인간 수준보다 훨씬 낮았습니다. 이는 현재 AI 발전 방향에 대한 반성을 촉발했고, 연구자들은 AGI의 정의와 평가 방식을 재검토하게 됐다. 이 기사에서는 ARC-AGI 테스트의 한계와 향후 AGI 연구 방향에 대한 전망을 자세히 분석하고 관련 경쟁 결과와 연구자의 대처 전략을 제시합니다.
그럼에도 불구하고 Sholay는 AI 연구에 대한 추진을 멈추지 않았습니다. 그와 Zapier 창립자인 Mike Knoop은 오픈 소스 AI가 ARC-AGI 벤치마크에 도전하도록 장려하기 위해 올해 6월 공동으로 100만 달러 규모의 대회를 시작했습니다. 최고 성능의 AI 시스템은 17,789개의 항목 중 55.5%에 불과했지만 "인간의 성능"을 달성하는 데 필요한 85% 미만이지만 Sholay와 Knoop은 여전히 이를 중요한 단계로 보고 있습니다.
Knoop은 블로그 게시물에서 이 성과가 AGI 실현에 더 가까워졌다는 의미는 아니며 ARC-AGI의 일부 작업이 "무차별 대입" 솔루션에 너무 많이 의존하고 실제 일반에 대한 효과적인 신호를 제공하지 않을 수 있음을 강조합니다. 지능. ARC-AGI는 원래 이전에 볼 수 없었던 복잡한 작업을 제공하여 AI의 일반화 능력을 테스트하기 위해 설계되었지만 이러한 작업이 AGI를 효과적으로 평가할 수 있는지 여부는 여전히 의구심이 있습니다.
사진 출처 참고: 사진은 AI에 의해 생성되었으며 사진은 서비스 제공업체 Midjourney의 승인을 받았습니다.
ARC-AGI 벤치마크의 작업에는 AI가 알려진 정보를 기반으로 알 수 없는 답을 추론해야 하는 퍼즐 문제 등이 포함됩니다. 이러한 작업은 AI의 새로운 상황 적응을 촉진하는 것처럼 보이지만 결과는 기존 모델이 많은 양의 계산을 통해 해결책을 찾는 것처럼 보이며 진정한 지능적 적응성을 반드시 입증하지는 않는다는 것을 보여줍니다.
또한 ARC-AGI 제작자는 특히 AGI 정의를 둘러싼 모호성과 관련하여 동료들로부터 비판을 받았습니다. OpenAI 직원은 최근 AGI를 "대부분의 작업에서 대부분의 인간보다 더 나은 성능을 발휘하는" 인공 지능으로 정의한다면 실제로 AGI가 달성된 것이라고 밝혔습니다. 그러나 Cholet과 Knoop은 ARC-AGI 벤치마크에 대한 기존 설계가 아직 이 목표를 완전히 달성하지 못했다고 주장합니다.
앞으로 Sholay와 Knoop은 2세대 ARC-AGI 벤치마크를 출시할 계획이며, 현재 테스트의 단점을 해결하기 위해 2025년에 새로운 경쟁을 개최할 예정입니다. 그들은 새로운 벤치마크가 더 중요한 방향으로 AI 연구의 발전을 촉진하고 AGI 구현을 가속화하는 데 더 중점을 둘 것이라고 말했습니다.
그러나 기존 벤치마크를 수정하는 것은 쉬운 일이 아닙니다. Sholay와 Knoop의 노력은 인공 지능, 특히 일반 지능 분야에서 지능을 정의하는 것이 여전히 어렵고 복잡한 작업임을 보여줍니다.
전체적으로 ARC-AGI 벤치마크 및 관련 논의의 진행은 인공지능 분야에서 일반 인공지능에 대한 탐구가 여전히 진행 중이며 앞으로 더욱 엄격한 정의와 보다 효과적인 평가가 이루어질 것임을 반영합니다. AGI의 실질적인 발전을 촉진하는 방법이 필요합니다.