本文探讨了大模型训练中预训练数据集大小对下游任务性能的影响,特别是针对迁移学习的Scaling Law进行了研究。研究者分析了预训练数据集大小与下游任务性能(以BLEU得分和交叉熵衡量)之间的关系,并提出了评估预训练数据集价值的两条指南。研究发现,BLEU得分更符合对数律缩放,而交叉熵的相关性较差,预训练数据集的有效性取决于与下游任务的对齐程度,过大的数据集可能不会带来额外提升。
大模型的成功很大程度上要归因于 Scaling Law 的存在。研究者探索了迁移学习的 Scaling Law,研究了两个指标:下游 BLEU 得分和下游交叉熵,预训练数据集大小与任务微调后下游任务性能之间的关系。交叉熵损失总是一个好的指标吗?BLEU 得分更接近于对数律。研究者给出了两条指南,用于评估预训练数据集对目标下游任务的价值。实验结果表明,预训练对 BLEU 得分几乎没有改善,Scaling Law 适用于 BLEU 得分的 Scaling Law与遵循幂律缩放行为的交叉熵和困惑度不同。交叉熵与 BLEU 得分之间的相关性并不好,预训练数据评估指南提供了对下游任务价值的评估方法。预训练数据集对于任务性能的影响取决于对齐程度,预训练数据集过大可能不会带来额外改善。Scaling Law 可以用于预测下游任务性能改善,是否能适应 BLEU 得分的 Scaling Law指示了预训练数据与特定翻译任务的对齐程度。总而言之,该研究揭示了Scaling Law在评估大模型预训练数据有效性中的作用,并强调了选择合适的评估指标以及考虑预训练数据与下游任务对齐程度的重要性,为大模型训练提供了宝贵的经验和指导。未来研究可以进一步探索更有效的评估指标和方法,以更好地指导大模型的训练和优化。