本文探討了大模型訓練中預訓練資料集大小對下游任務表現的影響,特別是針對遷移學習的Scaling Law進行了研究。研究者分析了預訓練資料集大小與下游任務表現(以BLEU得分和交叉熵衡量)之間的關係,並提出了評估預訓練資料集價值的兩個指南。研究發現,BLEU得分更符合對數律縮放,而交叉熵的相關性較差,預訓練資料集的有效性取決於與下游任務的對齊程度,過大的資料集可能不會帶來額外提升。
大模型的成功很大程度上要歸因於Scaling Law 的存在。研究者探索了遷移學習的Scaling Law,研究了兩個指標:下游BLEU 得分和下游交叉熵,預訓練資料集大小與任務微調後下游任務表現之間的關係。交叉熵損失總是一個好的指標嗎? BLEU 分數更接近對數律。研究者給出了兩個指南,用於評估預訓練資料集對目標下游任務的價值。實驗結果表明,預訓練對BLEU 得分幾乎沒有改善,Scaling Law 適用於BLEU 得分的Scaling Law與遵循冪律縮放行為的交叉熵和困惑度不同。交叉熵與BLEU 得分之間的相關性並不好,預訓練資料評估指南提供了對下游任務價值的評估方法。預訓練資料集對於任務表現的影響取決於對齊程度,預訓練資料集過大可能不會帶來額外改善。 Scaling Law 可用於預測下游任務表現改善,是否能適應BLEU 得分的Scaling Law指示了預訓練資料與特定翻譯任務的對齊程度。總而言之,該研究揭示了Scaling Law在評估大模型預訓練資料有效性中的作用,並強調了選擇合適的評估指標以及考慮預訓練資料與下游任務對齊程度的重要性,為大模型訓練提供了寶貴的經驗和指導。未來研究可以進一步探索更有效的評估指標和方法,以更好地指導大模型的訓練和最佳化。