この記事では、大規模モデルのトレーニングにおける下流タスクのパフォーマンスに対するトレーニング前のデータセットのサイズの影響、特に転移学習のスケーリング則について調査します。研究者らは、事前トレーニング データセットのサイズと下流タスクのパフォーマンス (BLEU スコアおよびクロスエントロピーとして測定) との関係を分析し、事前トレーニング データセットの価値を評価するための 2 つのガイドラインを提案しました。この研究では、BLEU スコアは対数スケーリングとより一貫性がある一方、クロスエントロピーの相関性は低いことがわかりました。トレーニング前のデータセットの有効性は下流のタスクとの整合性に依存し、大きすぎるデータセットはそうではない可能性があります。さらなる改善をもたらします。
大規模モデルの成功は主にスケーリング則の存在によるものです。研究者らは転移学習のスケーリング則を調査し、下流のBLEUスコアと下流のクロスエントロピーという2つの指標と、トレーニング前のデータセットのサイズとタスク微調整後の下流タスクのパフォーマンスとの関係を研究しました。クロスエントロピー損失は常に優れた指標となるのでしょうか? BLEU スコアは対数則に近くなります。研究者らは、対象となる下流タスクの事前トレーニング データセットの価値を評価するための 2 つのガイドラインを示しました。実験結果は、事前トレーニングによって BLEU スコアがほとんど改善されず、BLEU スコアに適用されるスケーリング則が、べき乗則スケーリング動作に従うクロスエントロピーやパープレキシティとは異なることを示しています。クロスエントロピーと BLEU スコアの相関は良好ではなく、トレーニング前データ評価ガイドでは下流タスクの価値の評価方法が提供されています。タスクのパフォーマンスに対する事前トレーニング データセットの影響は調整の度合いによって異なり、事前トレーニング データセットが大きすぎるとそれ以上の改善がもたらされない可能性があります。スケーリング則を使用して、下流タスクのパフォーマンスの向上を予測できます。スケーリング則を BLEU スコアに適用できるかどうかは、事前トレーニング データが特定の翻訳タスクとどの程度一致しているかを示します。要約すると、この研究は、大規模なモデルの事前トレーニング データの有効性を評価する際のスケーリング則の役割を明らかにし、適切な評価指標を選択し、事前トレーニング データと下流のタスクとの整合度を考慮することの重要性を強調し、有益な洞察を提供します。大きなモデルのトレーニングと指導。今後の研究では、大規模モデルのトレーニングと最適化をより適切に導くための、より効果的な評価指標と方法をさらに探索することができます。