12 日間のテクノロジー共有ライブ ブロードキャスト イベントの後、OpenAI は次世代推論モデル o3 と、特定のタスクに最適化された o3-mini の合理化バージョンをリリースしました。 o3 は複数のベンチマーク テストで画期的な進歩を遂げており、そのパフォーマンスは前世代モデル o1 を大幅に上回り、いくつかの面では汎用人工知能 (AGI) のレベルにさえ近づいています。このリリースは業界で広く注目を集めており、将来のプログラミング方法とプログラマーの作業モデルに大きな影響を与えると考えられています。
12 日間にわたるテクノロジー共有ライブ ブロードキャストの後、OpenAI は最終日に、以前にリリースされた o1 推論モデルのアップグレード バージョンである次世代推論モデル o3 をリリースしました。 o3 モデル シリーズには、o3 と o3-mini の 2 つのバージョンがあり、そのうちの o3-mini は、特定のタスク向けに微調整された小型の合理化されたモデルです。 OpenAI は、o3 モデルは特定の条件下で汎用人工知能 (AGI)、つまり人間が完了できるあらゆるタスクを完了できる人工知能の実現に近づくことができると述べています。
ARC-AGI グラフィカル論理推論ベンチマークでは、o3 モデルは記録破りのスコアを達成し、低コンピューティング シナリオでは 75.7% のスコアを達成しましたが、高コンピューティング テストでは 87.5% に達し、人間のレベルに達することを示すベンチマークを上回りました。しきい値 85%。比較すると、o1 モデルのスコアは 25% ~ 32% の間だけであり、o3 のパフォーマンスは o1 のほぼ 3 倍です。世界的に有名なコーディング コンペティション プラットフォーム Codeforces では、o3 のスコアは 2727 でしたが、o1 のスコアはわずか 1891 でした。
Cheetah Mobile または Orion Star の会長である Fu Sheng 氏は、OpenAI o3 のリリースは、ユーザーがプログラムを作成するために Python や C 言語に精通している必要はなく、必要なだけで済む時代の到来を告げるものであると述べました。要件を提示すると、大きな予測モデルがプログラミング作業を完了するのに役立ちます。 Fu Sheng 氏は、o3 のリリースは、大規模言語モデルのプログラミング能力がプログラマーの 99.9% を超えたことを示していると考えています。Codeforces の世界クラスのプログラミング コンテストで、o3 は 175 位という最高の結果を達成しましたが、o1 は 90% 以上を破っただけです。プログラマー、GPT-4o は以前はプログラマーの 11% しか勝てませんでした。
OpenAIは来年1月末にo3モデルを正式リリースする予定だ。 Fu Sheng氏は、プログラマーが完全に消えるわけではないが、プログラマーの仕事はユーザーのニーズを理解し、大規模なロジックを構築することにシフトし、ニーズをコードに変換する作業のほとんどはAIによって完了されるだろうと指摘した。このリリースは、プログラミング分野における AI の幅広い応用を予告するものであり、プログラマーの働き方も変わる可能性があります。
o3 モデルのリリースは、人工知能テクノロジーの大きな進歩を示しており、その強力な推論機能とプログラミング機能はさまざまな分野に大きな影響を与えるでしょう。将来的には、技術の継続的な開発と改善により、人工知能がより多くの分野でより大きな役割を果たし、人間社会にさらなる利便性をもたらすことが期待されます。