Downcodes の編集者は、Meta FAIR、カリフォルニア大学バークレー校、ニューヨーク大学の研究者が協力して、命令処理と大規模な言語モデルの処理を大幅に改善することを目的とした Thinking Preference Optimization (TPO) と呼ばれる新技術を開発したことを知りました。 (LLM) 応答品質。このテクノロジーは、最終的な答えのみに焦点を当てた従来の LLM の制限を打ち破り、人間の思考プロセスをシミュレートすることで、モデルが答えを与える前に内部の反映と推論を実行できるようになり、より正確で一貫した応答を生成できます。このテクノロジーは、さまざまな分野での LLM の応用に革命をもたらし、ユーザーに優れた AI インタラクティブ エクスペリエンスをもたらすことが期待されています。
TPO テクノロジーの中核は、改良された Chain of Thinking (CoT) 推論方法です。このアプローチは、モデルがトレーニング中に「答える前に考える」ことを奨励し、最終的な答えを提供する前に、より組織化された内部思考プロセスを開発するのに役立ちます。従来の CoT プロンプトは精度が低下する場合があり、明確な思考ステップがないためトレーニングが非常に困難です。 TPO は、中間ステップをユーザーに公開することなく、モデルが思考プロセスを最適化および簡素化できるようにすることで、これらの課題をうまく解決します。
TPO のトレーニング プロセスでは、まず大規模な言語モデルが複数のアイデアを生成するように指示され、その後、最終的な答えが分類されます。次に、これらの出力は「判定」モデルによって評価され、最高のパフォーマンスの応答と最低のパフォーマンスの応答が選択されます。これらの評価結果は、モデルの応答品質を継続的に向上させるための直接優先最適化 (DPO) の「選択」と「拒否」のペアとして使用されます。
TPO は、トレーニングの合図を調整することで、モデルが答える前に内的に考えることを促します。このプロセスにより、モデルは答えを改良し、より明確で関連性の高いものになります。最後に、評価作業は LLM ベースの評価モデルによって完了します。このモデルは最終回答のみを採点するため、隠れた思考ステップから独立し、モデルが回答の品質を向上させるのに役立ちます。 TPO はまた、直接優先最適化を使用して、隠れた思考を含む優先回答と拒否回答のペアを作成します。トレーニングを複数回行った後、モデルの内部プロセスがさらに洗練されます。
AlpacaEval および Arena-Hard に対するベンチマークでは、TPO メソッドは従来の応答ベースラインを上回り、Thinking Tips の Llama-3-8B-Instruct モデルを上回りました。このアプローチの反復トレーニングにより思考生成機能が最適化され、最終的には複数のベースライン モデルよりも優れたパフォーマンスを発揮します。 TPOは論理や数学のタスクに適しているだけでなく、マーケティングや健康などのクリエイティブな分野のタスクに続く指導でも才能を発揮することは言及する価値があります。
AIとロボット工学の専門家であるKaran Verma氏は、ソーシャルプラットフォームで「思考LLM」の概念について見解を共有しました 優れた治療効果。
この構造化された内部思考プロセスにより、モデルは複雑な命令をより効果的に処理できるようになり、人間が特定の思考データを提供する必要がなく、マルチレベルの推論と詳細な理解を必要とする分野での応用がさらに拡大します。この研究は、TPO が、応答生成の柔軟性と深さに対する高い要件が求められる分野に適した、多様なコンテキストにおいて大規模な言語モデルをより柔軟かつ効率的にする可能性を秘めていることを示しています。
全体として、TPO テクノロジーの出現は、大規模な言語モデルのパフォーマンス向上に新たな可能性をもたらし、さまざまな分野での応用の可能性が期待されています。 Downcodes の編集者は、テクノロジーの継続的な開発と改善により、TPO がより多くの分野で大きな役割を果たし、人工知能の発展に貢献すると信じています。