В этой статье исследуется влияние размера набора данных перед обучением на выполнение последующих задач при обучении больших моделей, особенно на закон масштабирования трансферного обучения. Исследователи проанализировали взаимосвязь между размером набора данных перед обучением и производительностью последующих задач (измеренной как показатель BLEU и перекрестная энтропия) и предложили два руководства по оценке ценности наборов данных перед обучением. Исследование показало, что оценка BLEU более соответствует логарифмическому масштабированию, в то время как корреляция перекрестной энтропии плохая. Эффективность набора данных перед обучением зависит от согласованности с последующими задачами, а слишком большой набор данных может быть неудовлетворительным. принести дополнительное улучшение.
Успех больших моделей во многом обусловлен существованием закона масштабирования. Исследователи исследовали закон масштабирования трансферного обучения и изучили два показателя: показатель BLEU нисходящего потока и перекрестную энтропию нисходящего потока, а также взаимосвязь между размером набора данных перед обучением и производительностью последующих задач после точной настройки задач. Всегда ли потеря перекрестной энтропии является хорошим показателем? Оценка BLEU ближе к логарифмическому закону. Исследователи дали два руководства по оценке ценности наборов данных предварительного обучения для целевых последующих задач. Экспериментальные результаты показывают, что предварительное обучение незначительно улучшает показатель BLEU, а закон масштабирования, применяемый к показателю BLEU, отличается от перекрестной энтропии и недоумения, которые следуют степенному закону масштабирования. Корреляция между перекрестной энтропией и показателем BLEU не очень хорошая, а руководство по оценке данных перед обучением предоставляет метод оценки ценности последующих задач. Влияние набора данных перед обучением на производительность задачи зависит от степени согласованности, а слишком большой набор данных перед обучением может не принести дополнительных улучшений. Закон масштабирования можно использовать для прогнозирования улучшения производительности последующих задач. Можно ли адаптировать закон масштабирования к баллу BLEU, показывает, насколько хорошо данные предварительного обучения соответствуют конкретной задаче перевода.Таким образом, это исследование раскрывает роль закона масштабирования в оценке эффективности данных предварительного обучения большой модели и подчеркивает важность выбора соответствующих показателей оценки и рассмотрения степени согласования данных предварительного обучения с последующими задачами, предоставляя ценную информацию для большой модельный опыт и рекомендации. Будущие исследования могут дополнительно изучить более эффективные индикаторы и методы оценки, которые помогут лучше управлять обучением и оптимизацией больших моделей.