Downcodes の編集者は、Shanghai AI Lab チームが LLaMA バージョンの o1 プロジェクトをオープンソース化したことを知りました。これは素晴らしいニュースです。このプロジェクトは、OpenAI の数学的謎解きアーティファクトである o1 を再現することを目的としており、大きな進歩を遂げています。チームは、モンテカルロ木探索や強化学習などの高度なテクノロジーを巧みに使用して、AIME2024 ベンチマーク テストで多くのクローズドソース ソリューションを上回り、強力な技術力とオープンソースの精神を実証しました。オープンソース プロジェクトには、事前トレーニングされたデータセット、モデル、トレーニング コードが含まれており、開発者に貴重な学習リソースを提供します。
OpenAI の o1 シリーズがリリースされるずっと前に、Shanghai AI Lab チームは大規模モデルの数学的能力を向上させるためにモンテカルロ木探索の使用を検討し始めました。 o1 のリリース後、チームは数学オリンピックの問題に焦点を当ててアルゴリズムをさらにアップグレードし、OpenAI Strawberry プロジェクトのオープンソース バージョンとして開発しました。
数学オリンピックの問題に対する LLaMA モデルのパフォーマンスを向上させるために、チームは、解答の絶対スコアを直接与えるのではなく、2 つの解答の相対的な利点を比較するペアワイズ最適化戦略を採用しました。 このアプローチにより、最も難しい AIME2024 ベンチマークで大幅な改善を達成しました。 30 問のテスト質問のうち、最適化されたモデルは 8 問正解しましたが、元の LLaMA-3.1-8B-Instruct モデルは 2 問しか正解しませんでした。 この実績は、o1-preview と o1-mini を除く他の商用クローズドソース ソリューションを上回ります。
10月末、チームは、AlphaGo Zero アーキテクチャに基づいた OpenAI o1 の再現において大幅な進歩を遂げ、手動のアノテーションなしで学習プロセス中に検索ツリーと対話することでモデルが高度な思考能力を獲得できるようになったと発表しました。 1 週間も経たないうちに、プロジェクトはオープンソース化されました。
現在、LLaMA バージョン o1 のオープンソース コンテンツには、事前トレーニング データ セット、事前トレーニング モデル、強化学習トレーニング コードが含まれています。 その中で、「OpenLongCoT-Pretrain」データセットには、10万を超える長い思考連鎖データが含まれており、各データには、思考内容、採点結果、問題の説明、グラフィック座標、計算プロセス、結論を含む完全な数学的問題推論プロセスが含まれています。完全な推論リンク、および各推論ステップの批判と検証の内容は、推論プロセスの評価とガイダンスを提供します。 このデータセットで事前トレーニングを継続した後、モデルは o1 のような長い思考連鎖プロセスを読み取って出力できます。
このプロジェクトは LLaMA-O1 と呼ばれていますが、現在公式に提供されている事前トレーニング モデルは Google の Gemma2 に基づいています。 事前トレーニングされたモデルに基づいて、開発者は引き続き強化学習トレーニングを実行できます。 トレーニング プロセスには、モンテカルロ ツリー検索を使用してセルフプレイを実行し、エクスペリエンスを優先エクスペリエンス再生バッファーに保存すること、トレーニングのためにバッファーからバッチ データをサンプリングすること、およびエクスペリエンス優先度を更新することが含まれます。 トレーニング コードでは、パラメーターの効率的な微調整のための LoRA の使用、戦略最適化手法としての PPO アルゴリズムの使用、アドバンテージ関数を計算するための GAE アルゴリズムの実装、トレーニングを改善するための優先エクスペリエンス再生の使用など、いくつかの主要なテクノロジーもトレーニング コードで使用されています。効率。
LLaMA-O1 コードが SimpleBerry という GitHub アカウントでリリースされたことは注目に値します。このアカウントには特別な紹介がなく、比較的謎に見えます。 SimpleBerry に関する他のアカウントや公式 Web サイトの情報からは、その性質が研究機関であることのみがわかりますが、研究の方向性についてはこれ以上の情報は明らかにされていません。
LLaMA-O1 に加えて、公的に進歩しているもう 1 つの o1 レプリカ プロジェクトは、上海交通大学チームによる O1-Journey です。 同チームは10月初旬に最初の進捗レポートを発表し、革新的なジャーニーラーニングパラダイムと、検索と学習を数学的推論にうまく統合した最初のモデルを紹介した。 O1-Journeyの中心となる開発チームは、上海交通大学の学部3年生および4年生と、上海交通大学GAIR研究室(生成人工知能研究室)の博士課程1年生の講師で構成されています。上海交通大学の同窓生でスローン賞を受賞した李元志准教授の劉鵬飛氏と姚伴氏などが含まれる。
論文アドレス: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
LLaMA バージョン o1 プロジェクトのオープンソースは、AI の数学的問題解決の分野に新たな活力をもたらし、開発者に貴重な学習および研究リソースも提供しました。人工知能分野の継続的な発展を促進するために、今後さらに同様のオープンソース プロジェクトが登場することを楽しみにしています。