大規模言語モデル (LLM) のトレーニングと最適化は、人工知能の分野における重要な課題です。効率的なトレーニング方法では、モデルのパフォーマンスを保証するだけでなく、モデルが人間の価値観と一致していることも保証する必要があります。ヒューマンフィードバックによる強化学習 (RLHF) は、効果的な LLM トレーニング方法として近年広く使用されていますが、その効率と拡張性はまだ改善の必要があります。この目的のために、ByteDance Doubao Big Model チームは、HybridFlow と呼ばれる RLHF フレームワークをオープンソース化しました。これは、従来の RLHF フレームワークの制限を解決し、LLM トレーニングに新たなブレークスルーをもたらすことを目的としています。
RLHF は通常 3 つの段階で構成されます。まず、アクター モデルが入力プロンプトに従ってテキストを生成します。次に、批評家モデル、参照モデル、報酬モデルが生成されたテキストを評価し、対応する値、参照確率、報酬値を計算します。評価結果は、人間の好みとより一致するテキストを生成するようにアクター モデルをトレーニングするために使用されます。従来の RLHF フレームワークは通常、単一のコントローラーを採用してデータ フロー全体を管理しますが、これは分散コンピューティングを必要とする LLM にとって非効率的です。
HybridFlow フレームワークは、シングル コントローラー モードとマルチ コントローラー モードを革新的に組み合わせ、階層化された API 設計を通じて複雑な計算とデータの依存関係を分離し、RLHF データ フローの柔軟な表現と効率的な実行を実現します。
HybridFlow の利点は主に次の 3 つの側面に反映されます。
複数の RLHF アルゴリズムとモデルの柔軟なサポート: HybridFlow はモジュール式 API を提供するため、ユーザーは PPO、ReMax、Safe-RLHF などのさまざまな RLHF アルゴリズムを簡単に実装および拡張できます。
効率的なモデルの重みの再構成: 3D-HybridEngine コンポーネントは、トレーニングおよび生成段階でのアクター モデルの効率的なモデルの重みの再構成をサポートし、メモリの冗長性と通信のオーバーヘッドを最小限に抑えます。
自動化されたモデル展開と並列戦略の選択: 自動マッピング コンポーネントは、モデルの負荷とデータの依存関係に基づいてモデルをさまざまなデバイスに自動的にマッピングし、最適な並列戦略を選択できるため、モデル展開プロセスが簡素化され、トレーニング効率が向上します。
実験結果によると、さまざまな RLHF アルゴリズムを実行すると、HybridFlow のスループットが最大 20.57 倍に大幅に向上します。 HybridFlow のオープンソースは、RLHF の研究開発に強力なツールを提供し、将来の LLM テクノロジーの開発を促進します。
論文アドレス: https://arxiv.org/pdf/2409.19256
Downcodes の編集者は次のように結論付けています。HybridFlow フレームワークのオープンソースは、大規模な言語モデルのトレーニングのための新しいアイデアとツールを提供します。その効率性と柔軟性は、LLM テクノロジーのさらなる発展を促進することが期待されており、注目と詳細な研究に値します。 。 将来的には、HybridFlow に基づくさらに革新的なアプリケーションが登場することを楽しみにしています。