OpenAI の最新モデルである o3 は、ARC-AGI ベンチマークで目覚ましい結果を達成し、標準的なコンピューティング条件下で 75.7%、高コンピューティング バージョンでは 87.5% という高いスコアを記録しました。この結果は、これまでのモデルを大きく上回り、AI研究の分野で広く注目を集めています。 ARC-AGI ベンチマークは、AI システムが新しいタスクに適応し、流動的なインテリジェンスを実証する能力を評価するように設計されており、非常に難しく、AI 評価において最も困難な基準の 1 つと考えられています。 o3 の画期的なパフォーマンスは間違いなく AI 開発に新たな方向性と可能性をもたらしますが、それは AGI が突破されたことを意味するものではありません。
OpenAI がリリースした最新モデル o3 は、ARC-AGI ベンチマークで驚くべき結果を達成し、標準的なコンピューティング条件下で 75.7% もの高いスコアを達成し、高コンピューティング バージョンでは 87.5% に達しました。この成果は AI 研究コミュニティを驚かせましたが、それでも人工知能の汎用性 (AGI) が解明されたことを証明するものではありません。
ARC-AGI ベンチマークは、新しいタスクに適応し、流動的なインテリジェンスを実証する AI システムの能力を評価するために設計されたテストである Abstract Reasoning Corpus に基づいています。 ARC は、オブジェクト、境界、空間関係などの基本概念を理解する必要がある一連の視覚的なパズルで構成されています。人間はこれらのパズルを簡単に解くことができますが、現在の AI システムはこの点で大きな課題に直面しています。 ARC は、AI 評価において最も難しい基準の 1 つと考えられています。
o3 は以前のモデルよりもパフォーマンスが大幅に向上しました。 ARC-AGI の o1-preview と o1 モデルの最高スコアは 32% です。これに先立ち、研究者の Jeremy Berman 氏は、Claude3.5Sonnet と遺伝的アルゴリズムを組み合わせたハイブリッド手法を使用して 53% のスコアを達成し、o3 の登場は AI 機能の飛躍的な進歩とみなされていました。
ARC の創設者であるフランソワ ショレ氏は、o3 の AI 機能の質的変化を賞賛し、新しいタスクに適応する能力において前例のないレベルに達していると信じています。
o3 は優れたパフォーマンスを発揮しますが、計算コストも非常に高くなります。低コンピューティング構成では、各パズルを解くのに 17 ドルから 20 ドルのコストがかかり、3,300 万のトークンが消費されますが、高コンピューティング構成では、計算コストは 172 倍に増加し、数十億のトークンが使用されます。ただし、推論のコストが徐々に減少するにつれて、これらのオーバーヘッドはより妥当なものになる可能性があります。
o3 がどのようにしてこの画期的な進歩を達成したかについては、現時点では詳細は不明です。一部の科学者は、o3 は連鎖思考と検索メカニズムを組み合わせたプログラム合成手法を使用しているのではないかと推測しています。他の科学者は、o3 は強化学習をさらに拡張することによって単純に得られるのではないかと考えています。
o3 は ARC-AGI に関して大きな進歩を遂げましたが、Chollet 氏は、ARC-AGI は AGI のテストではなく、o3 はまだ AGI 標準に達していないと強調しました。いくつかの単純なタスクではまだパフォーマンスが低く、人間の知能との根本的な違いが示されています。さらに、o3 は依然として推論プロセス中に外部検証に依存しており、AGI の独立した学習能力には程遠いです。
Chollet チームは、o3 の機能をテストするための新しい挑戦的なベンチマークを開発しており、そのスコアを 30% 未満に下げることを期待しています。彼は、真の AGI とは、人間にとっては単純でも AI にとっては難しいタスクを作成することがほぼ不可能になることを意味すると指摘しています。
ハイライト:
o3 は、ARC-AGI ベンチマーク テストで 75.7% という高スコアを達成し、従来モデルを上回りました。
o3 の各パズルを解くのにかかるコストは 17 ~ 20 ドルにもなり、膨大な計算になります。
o3 は優れたパフォーマンスを発揮しますが、専門家はまだ AGI 基準に達していないと強調しています。
全体として、ARC-AGI テストにおける o3 モデルの優れたパフォーマンスは、抽象推論能力における人工知能の大幅な進歩を示していますが、これは真の AGI への道の小さな一歩にすぎません。今後の研究では、高い計算コストと AGI の中核問題を解決するために引き続き探求を続ける必要があります。