OpenAI の GPT-5 プロジェクト (コード名 Orion) の進捗が遅いことは、大規模言語モデルの将来の開発方向について業界で広範な懸念を引き起こしています。報告書によると、GPT-5は既存モデルよりも性能が向上しているものの、その改良は膨大な研究開発費を賄うには十分ではないという。さらに重要なことは、地球規模のデータの欠如が、GPT-5 の知能レベルのさらなる向上を妨げる主なボトルネックとなっているということです。この記事では、技術的な課題、GPT-5 プロジェクトが直面する内部の困難、そしてその結果として生じる AI 開発のボトルネックについての考え方を深く掘り下げていきます。
注目を集める GPT-5 プロジェクト (コード名 Orion) は 18 か月以上開発が続けられていますが、まだリリースされていません。ウォール・ストリート・ジャーナルの最新レポートによると、この件に詳しい関係者らは、Orion のパフォーマンスは OpenAI の既存モデルよりも優れているものの、その改善は巨額のコストを投資し続けることを正当化するには十分ではないと明らかにした。さらに懸念されるのは、世界規模のデータの不足が、GPT-5 がより高いレベルのインテリジェンスを目指す上での最大の障害となりつつあることです。
GPT-5は少なくとも2回の訓練を受けたと言われているが、それぞれの訓練で新たな問題が明らかになり、研究者の期待に応えることができなかった。トレーニングの各ラウンドには数か月かかり、計算コストだけで 5 億ドルにも上ります。プロジェクトが成功するかどうか、いつ成功するかは不明だ。
トレーニングへの道は困難に満ちています: データのボトルネックが出現します
2023 年 3 月の GPT-4 のリリース以来、OpenAI は GPT-5 の開発を開始しました。通常、AI モデルの機能は、吸収するデータの量が増加するにつれて増加します。トレーニング プロセスには大量のデータが必要で、数か月かかり、多数の高価なコンピューティング チップに依存しています。 OpenAI CEO の Altman 氏は、GPT-4 のトレーニング費用だけでも 1 億米ドルを超え、将来的に AI モデルのトレーニング費用は 10 億米ドルを超えると予想されると明らかにしました。
リスクを軽減するために、OpenAI は通常、最初に小規模な試行を実行してモデルの実現可能性を検証します。しかし、GPT-5 の開発は当初から課題に直面しました。 2023 年半ば、OpenAI は、GPT-5 の新しい設計をテストするために設計された「Arrakis」と呼ばれる実験トレーニングを開始しました。しかし、トレーニングの進歩は遅く、コストがかかり、GPT-5 の開発は当初の予想よりも複雑で困難であることが実験結果から示されています。
したがって、OpenAI の研究チームは、Orion に一連の技術的な調整を行うことを決定し、既存のパブリック インターネット データではもはやモデルのニーズを満たすことができないことに気づきました。 GPT-5 のパフォーマンスを向上させるためには、より多くの種類と高品質のデータが早急に必要です。
データ不足への対応「データをゼロから作る」
データ不足の問題に対処するため、OpenAIは「データをゼロから作成する」ことにしました。彼らはソフトウェア エンジニアや数学者を雇って、新しいソフトウェア コードを作成したり、数学的問題を解決したりして、Orion にこれらのタスクから学習させます。 OpenAI を使用すると、専門家が自分たちの作業プロセスを説明できるようになり、人間の知能が機械学習可能な知識に変換されます。
多くの研究者は、コードはソフトウェアの言語として、大規模なモデルがこれまで見たことのない問題を解決するのに役立つと信じています。チューリングのジョナサン・シッダールス最高経営責任者(CEO)は「われわれは人間の知性を人間の脳から機械の脳に移している」と語った。
OpenAI は、理論物理学などの分野の専門家と協力して、その分野の難しい問題の解決方法を説明してもらうこともできます。ただし、この「データを最初から作成する」アプローチはあまり効率的ではありません。 GPT-4の学習データは約13兆トークンで、1,000人が1日5,000ワードを書いたとしても、10億トークンを生成するには数か月かかります。
OpenAIは学習を高速化するために、AIが生成する「合成データ」の利用も試みている。しかし、AI が生成したデータを AI トレーニングに再利用するフィードバック ループでは、モデルがエラーを起こしたり、意味のない答えを生成したりする場合があることが研究で示されています。この点に関して、OpenAI の科学者は、o1 によって生成されたデータを使用することでこれらの問題を回避できると考えています。
内部および外部の問題: OpenAI は複数の課題に直面しています
OpenAIは技術的な課題だけでなく、社内の混乱や競合他社による引き抜きにも直面している。同時に、テクノロジーと金融からの二重の圧力も増大しています。各トレーニングセッションには最大5億ドルの費用がかかり、最終的なトレーニング費用は10億ドルを超える可能性があります。同時に、Anthropic や Google などの競合他社も OpenAI に追いつくために新世代モデルを発表しています。
頭脳流出と社内の意見の相違により、開発はさらに遅れました。昨年、OpenAIの取締役会は突然アルトマン氏を解任し、一部の研究者は同社の将来に疑問を抱いた。アルトマン氏はすぐにCEOに再任され、会社のガバナンス構造の刷新に着手したが、共同創設者兼主任科学者のイリヤ・サツケヴァー氏や技術責任者のミラ・ムラティ氏を含む20人以上の主要幹部、研究者、長期経営幹部が当初から交代した。今年に入って従業員が次々と退職していきます。
Orion プロジェクトの進捗が行き詰まる中、OpenAI は GPT-4 の簡易版や AI ビデオ生成製品 Sora など、他のプロジェクトやアプリケーションの開発を開始しました。しかし、これにより、限られたコンピューティング リソースをめぐるさまざまなチーム間、特に新製品開発チームと Orion 研究チーム間での激しい競争が発生しました。
AI開発のボトルネック?業界は深い思考に直面している?
GPT-5の苦境は、より大きな業界の命題を明らかにするかもしれない:AIは開発の「ボトルネック期」に近づいているのか? 業界関係者は、大量のデータと大規模なモデルに依存する戦略は徐々に効果がなくなっていくと指摘している。 OpenAIの元科学者スズクヴァ氏はかつて「インターネットは1つしかない」と述べ、データの増加は鈍化し、AIの飛躍を促す「化石燃料」は徐々に枯渇しつつあると語った。
アルトマン氏は、GPT-5の将来について明確なスケジュールを明らかにしたことはない。 OpenAI が GPT-5 と呼ばれるにふさわしいモデルをいつリリースするか、あるいはリリースするかどうかはまだわかりません。 GPT-5 に関するこのジレンマは、人々が AI の将来の開発方向について深く考えるきっかけにもなりました。
GPT-5 プロジェクトの停滞は、OpenAI 自体の開発に影響を与えるだけでなく、AI 業界全体に警鐘を鳴らしています。これは、データ規模とモデル サイズのみに依存する道は終わりを迎えている可能性を示唆しており、将来AI 開発には、新しい方向性と技術的なブレークスルーを模索する必要があります。