Shanghai AI Labチームは、Openai Olympiadの問題解決ツールO1のオープンソースレプリカプロジェクトであるO1プロジェクトのLlamaバージョンのソースを開設しました。このプロジェクトでは、モンテカルロツリー検索や強化学習などの高度なテクノロジーを使用して、数学的なオリンピックの質問に答える顕著な結果を達成し、そのパフォーマンスは一部の商業的なクローズドソースソリューションのパフォーマンスを超えています。プロジェクトのオープンソースは、開発者に貴重な学習リソースと研究財団を提供し、数学の分野での人工知能の応用のさらなる開発を促進します。このプロジェクトには、事前に訓練されたデータセット、事前に訓練されたモデル、および補強学習トレーニングコードなどが含まれ、数学的推論におけるモデルの能力を向上させることを目的としたLORAやPPOなどのさまざまな最適化技術を使用しています。
最近、Shanghai AI Labチームは、OpenaiのOlympiadの問題解決ツールO1を複製することを目指して、O1プロジェクトのLlamaバージョンをリリースしました。このプロジェクトでは、モンテカルロツリー検索、自己プレイ強化学習、PPO、Alphago Zeroのデュアル戦略パラダイムなど、開発者コミュニティから広く注目されているさまざまな高度な技術を採用しています。
OpenaiのO1シリーズがリリースされるずっと前に、Shanghai AI Labチームは、大規模なモデルの数学的能力を改善するためにモンテカルロツリー検索の使用を検討し始めました。 O1のリリース後、チームはさらにアルゴリズムをアップグレードし、数学オリンピアードの問題に焦点を当て、Openai Strawberryプロジェクトのオープンソースバージョンとして開発しました。
数学的オリンピックの問題におけるラマモデルのパフォーマンスを改善するために、チームはペアの最適化戦略を採用しました。つまり、答えの絶対スコアを直接与えるのではなく、2つの答えの相対的な利点と短所を比較しました。 このアプローチにより、彼らは最も難しいAIME2024ベンチマークで大きな進歩を遂げました。 30のテストの質問のうち、最適化されたモデルは正しく行われ、元のllama-3.1-8b-instructモデルは正しく行われました2。 この成果は、O1-PreviewとO1-Mini以外に、他の商業的なクローズドソースソリューションを上回っています。
10月末に、チームはAlphago Zeroアーキテクチャに基づいてOpenAI O1の複製に大きな進歩を発表し、手動注釈なしで学習プロセス中に検索ツリーとの相互作用を通じてモデルが高度な思考能力を獲得できるようになりました。 1週間も経たないうちに、プロジェクトが開かれました。
現在、LlamaバージョンO1のオープンソースコンテンツには、事前に訓練されたデータセット、事前に訓練されたモデル、および補強学習トレーニングコードが含まれます。 その中で、「OpenLongCot-Prain」データセットには100,000を超える長い思考チェーンデータが含まれています。各データには、コンテンツの思考、スコアリング、問題の説明、グラフ座標、計算プロセス、結論控除などを含む完全な数学的問題推論プロセスが含まれています。完全な推論リンク、および各推論ステップの批判と検証は、推論プロセスの評価とガイダンスを提供します。 このデータセットでの事前トレーニングを継続した後、モデルはO1のような長い思考チェーンプロセスを読み取り、出力できます。
このプロジェクトはLlama-O1と呼ばれていますが、公式が現在提供している事前に訓練されたモデルはGoogleのGemma2に基づいています。 事前に訓練されたモデルに基づいて、開発者は強化学習トレーニングを引き続き実施できます。 トレーニングプロセスには、モンテアロのエクスペリエンスリプレイバッファーのエクスペリエンスを生成するモンテカルロツリーの使用。 いくつかの重要なテクノロジーもトレーニングコードで使用されています。これには、LORAを効率的なパラメーター微調整に使用し、PPOアルゴリズムを戦略最適化方法として使用し、有利な機能を計算するためのGAEアルゴリズムの実装、トレーニング効率を改善するための優先エクスペリエンス再生を使用します。
Llama-O1コードは、SimpleBerryと呼ばれるGithubアカウントの下で公開されており、より神秘的なようです。 他のSimpleBerry関連のアカウントや公式のWebサイト情報から、その性質は研究室であることがわかりますが、研究方向に関する情報は明らかにされていません。
Llama-O1に加えて、O1 Replicaプロジェクトは、上海Jiaotong UniversityチームのO1-Journeyです。 チームは10月上旬に最初の進捗レポートをリリースし、検索と学習を数学的推論に成功裏に統合するための革新的なJourney Learning Paradigmと最初のモデルを導入しました。 O1-Journey Core Developmentチームは、主に上海Jiaotong大学のジュニアおよびシニアの学部生、およびGair Laboratoryの1年生の博士課程学生で構成されています(General人工知能研究所)Liu PengfeiとYao Ban、准教授上海ジョートン大学で。
紙の住所:https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
LLAMAバージョンO1プロジェクトのオープンソースは、AI数学の問題解決の分野で重要な進歩を示し、さらなる研究と応用のための強固な基盤を提供します。 将来のこのプロジェクトに基づいたより革新的な成果を楽しみにしています。