OpenAI は、o1 シリーズの後継となる新世代の推論モデル o3 とその合理化バージョン o3-mini をリリースしました。これらは、より深い思考を通じて質問への回答精度を向上させるように設計されています。 o3 は、ARC-AGI ベンチマークで画期的な進歩を遂げ、人間レベルに近い問題解決能力を実証しました。 o3-mini は速度とコスト効率を重視しており、特にプログラミング タスクに適しています。 o3 シリーズ モデルは一般に直接リリースされませんが、OpenAI はプレビューのためにセキュリティ研究者に公開しています。
o3 モデルは、複数のベンチマークで良好なパフォーマンスを示します。たとえば、SWE ベンチ検証済みベンチマークの精度は o1 よりも 20% 以上高く、競技数学および GPQA ダイヤモンドの精度も大幅に向上しています。 OpenAI は、モデルのセキュリティとセキュリティ仕様への準拠を確保するために、「熟議的調整」と呼ばれる新しいセキュリティ評価方法も導入しました。現在、OpenAI は外部セキュリティ テストを受けており、早期アクセス アプリケーションを公開しています。
プログラミングと数学的問題解決の観点から、o3 モデルは顕著な能力を実証しました。 SWE ベンチ検証済みベンチマークでは、o3 の精度は約 71.7% で、o1 モデルより 20% 以上高くなっています。競争規約では、o3 は 2727 の Elo スコアを受け取りましたが、o1 は 1891 しか受け取りませんでした。さらに、o3 の競技数学の精度は 96.7% に達し、GPQA ダイヤモンドの精度は 87.7% に達し、o1 よりも 10% 近く高くなりました。
OpenAI はまた、新しいセキュリティ評価手法である熟議的調整を導入しました。これは、モデルのセキュリティ仕様を直接教え、回答する前に仕様を明示的に呼び出し、推論を正確に実行するようにモデルをトレーニングできる新しいパラダイムです。このアプローチは、OpenAI の o シリーズ モデルを調整し、OpenAI のセキュリティ ポリシーへの高精度のコンプライアンスを達成するために使用されます。
現在、OpenAI は外部セキュリティ テストを推進しており、Web サイト上で早期アクセス アプリケーションを公開しています。申請者はオンライン フォームに記入して関連情報を提供する必要があります。選ばれた研究者には、o3 および o3-mini へのアクセスが許可され、その能力を調査し、セキュリティ評価に貢献します。
OpenAI o3 シリーズ モデルのリリースは、人工知能の推論能力の大幅な向上を示しており、複数の分野におけるその優れたパフォーマンスは、将来の AI テクノロジー開発の新たな方向性を示しています。 今後もo3シリーズの進化と応用に注目していきたいと思います。