Cet article explore l'impact de la taille de l'ensemble de données de pré-formation sur les performances des tâches en aval dans la formation de grands modèles, en particulier la loi de mise à l'échelle de l'apprentissage par transfert. Les chercheurs ont analysé la relation entre la taille de l'ensemble de données de pré-entraînement et la performance des tâches en aval (mesurées par le score BLEU et l'entropie croisée) et ont proposé deux lignes directrices pour évaluer la valeur des ensembles de données de pré-entraînement. L'étude a révélé que le score BLEU est plus cohérent avec l'échelle logarithmique, tandis que la corrélation de l'entropie croisée est faible. L'efficacité de l'ensemble de données de pré-formation dépend de l'alignement avec les tâches en aval, et un ensemble de données trop volumineux peut ne pas l'être. apporter une amélioration supplémentaire.
Le succès des grands modèles est en grande partie dû à l’existence de la loi d’échelle. Les chercheurs ont exploré la loi de mise à l'échelle de l'apprentissage par transfert et étudié deux indicateurs : le score BLEU en aval et l'entropie croisée en aval, ainsi que la relation entre la taille de l'ensemble de données de pré-entraînement et la performance des tâches en aval après le réglage fin des tâches. La perte d'entropie croisée est-elle toujours une bonne mesure ? Le score BLEU est plus proche de la loi logarithmique. Les chercheurs ont donné deux lignes directrices pour évaluer la valeur des ensembles de données de pré-formation pour les tâches cibles en aval. Les résultats expérimentaux montrent que la pré-entraînement a peu d'amélioration sur le score BLEU et que la loi de mise à l'échelle appliquée au score BLEU est différente de l'entropie croisée et de la perplexité, qui suivent le comportement de mise à l'échelle de la loi de puissance. La corrélation entre l'entropie croisée et le score BLEU n'est pas bonne, et le guide d'évaluation des données pré-formation fournit une méthode d'évaluation de la valeur des tâches en aval. L'impact d'un ensemble de données de pré-formation sur la performance des tâches dépend du degré d'alignement, et un ensemble de données de pré-formation trop volumineux peut ne pas apporter d'amélioration supplémentaire. La loi de mise à l'échelle peut être utilisée pour prédire les améliorations des performances des tâches en aval. Le fait que la loi de mise à l'échelle puisse être adaptée au score BLEU indique dans quelle mesure les données de pré-formation sont alignées avec la tâche de traduction spécifique.En résumé, cette étude révèle le rôle de la loi de mise à l'échelle dans l'évaluation de l'efficacité des données de pré-formation de grands modèles et souligne l'importance de sélectionner des mesures d'évaluation appropriées et de prendre en compte le degré d'alignement des données de pré-formation avec les tâches en aval, fournissant des informations précieuses pour formation sur grands modèles. Les recherches futures pourront explorer davantage des indicateurs et des méthodes d’évaluation plus efficaces pour mieux guider la formation et l’optimisation de grands modèles.