大規模言語モデル (LLM) は複雑な推論において課題に直面しており、OpenR と呼ばれる革新的なオープンソース フレームワークが登場しました。ユニバーシティ カレッジ ロンドンを含む複数の大学の研究者によって共同開発された OpenR は、テスト時の計算、強化学習、プロセス監視を組み合わせることで、LLM の推論能力を大幅に向上させます。高度なモデルの推論機能を再現するだけでなく、これに基づいてブレークスルーを実現し、数学、プログラミング、科学問題における LLM の欠点を解決するための新しいアイデアを提供します。 Downcodes のエディターを使用すると、OpenR フレームワークのユニークな設計と優れたパフォーマンスを深く理解できます。
OpenR と呼ばれる革新的なオープンソース フレームワークが最近立ち上げられ、複雑な推論タスクにおける大規模言語モデル (LLM) の欠点を解決することを目的としています。このフレームワークは、ユニバーシティ・カレッジ・ロンドン、リバプール大学、上海交通大学、香港科技大学(広州)、ウェストレイク大学の研究者によって共同開発されたもので、以下を組み合わせることでLLMの推論能力を向上させる新たな道を切り開きます。テスト時コンピューティング、強化学習、プロセス監視の新しい方法。
LLM は言語生成において大きな進歩を遂げてきましたが、数学、プログラミング、科学問題などの複雑なタスクを処理する際には依然として課題に直面しています。 OpenR の出現は、このギャップを埋め、LLM の機能を単純なテキスト生成からより高度な推論分野まで拡張することを目的としています。
OpenR の設計は OpenAI の o1 モデルから部分的にインスピレーションを受けていますが、その目標はより野心的であり、高度な言語モデルの推論機能を再現するだけでなく、これに基づいてブレークスルーを達成することでもあります。このような複雑な推論サポートを提供する最初のオープンソース ソリューションとして、OpenR はデータ取得、プロセス報酬モデル、効率的な推論手法に重点を置き、推論に焦点を当てた大規模言語モデルの開発を加速することを目指しています。
画像出典注:画像はAIによって生成され、画像はサービスプロバイダーMidjourneyによって許可されています
フレームワークの中核構造は、マルチパス探索と組み合わせたデータ拡張、ポリシー学習、および推論ガイダンスを中心に展開します。 OpenR はマルコフ決定プロセス (MDP) を使用して推論タスクをモデル化し、複雑な推論プロセスを評価および最適化できる一連のステップに分解します。この方法は、推論スキルを直接育成するだけでなく、各段階で複数の推論パスを探索し、推論プロセスの堅牢性を大幅に向上させます。
このフレームワークのもう 1 つの重要な機能は、プロセス報酬モデル (PRM) です。これにより、中間の推論ステップに詳細なフィードバックが提供され、モデルが最終結果の判断のみに依存するのではなく、より正確に意思決定を調整できるようになります。このきめ細かいガイダンスにより、モデルの学習効率が大幅に向上します。
実際のテストでは、OpenR は優れたパフォーマンスを示しました。 MATH データセットをベンチマークとして使用すると、OpenR の推論精度は従来の手法よりも約 10% 高くなります。この研究では、特にコンピューティング リソースが限られている場合、Best-of-N やビーム検索などのマルチパス探索手法が単純な多数決手法よりも大幅に優れていることもわかりました。
OpenR の強化学習テクノロジ、特に PRM を利用する手法は、オンライン ポリシー学習シナリオで優れたパフォーマンスを発揮し、LLM の推論能力の継続的な向上を促進します。この結果は、慎重に設計された学習戦略を通じて、LLM が複雑な推論タスクで画期的な進歩を達成する可能性があることを示しています。
OpenR は、オープン ソース プラットフォームとして、言語モデル推論機能を向上させるために共同作業するための貴重なリソースを研究者と開発者に提供します。現在の LLM にアップグレード パスを提供するだけでなく、将来的にはよりスマートで推論能力の高い AI システムへの道も開かれます。
OpenR チームは将来を見据えて、フレームワークの機能をさらに拡張して、より幅広い種類の推論タスクをカバーし、推論プロセスの最適化を継続する予定です。この取り組みは、推論 AI エージェントの自己改善という長期目標に重要な貢献をすると期待されています。
プロジェクトアドレス: https://github.com/facebook/openr
全体として、OpenR フレームワークの出現は、複雑な推論の分野における大規模言語モデルのブレークスルーに新たな可能性をもたらし、そのオープンソース機能により、より多くの研究者や開発者の参加が促進され、人工知能技術の進歩を共同で促進することができます。 OpenR が今後さらに大きな成果を上げ、よりスマートな AI システムの構築に貢献できることを期待しています。