Este artículo explora el impacto del tamaño del conjunto de datos previo al entrenamiento en el desempeño de las tareas posteriores en el entrenamiento de modelos grandes, especialmente la Ley de Escala del aprendizaje por transferencia. Los investigadores analizaron la relación entre el tamaño del conjunto de datos previo al entrenamiento y el desempeño de las tareas posteriores (medido como puntuación BLEU y entropía cruzada) y propusieron dos pautas para evaluar el valor de los conjuntos de datos previos al entrenamiento. El estudio encontró que la puntuación BLEU es más consistente con la escala logarítmica, mientras que la correlación de entropía cruzada es pobre. La efectividad del conjunto de datos previo al entrenamiento depende de la alineación con las tareas posteriores, y un conjunto de datos demasiado grande puede no serlo. aportar mejoras adicionales.
El éxito de los modelos grandes se debe en gran medida a la existencia de la Ley de Escala. Los investigadores exploraron la Ley de escala del aprendizaje por transferencia y estudiaron dos indicadores: la puntuación BLEU descendente y la entropía cruzada descendente, y la relación entre el tamaño del conjunto de datos previo al entrenamiento y el desempeño de las tareas posteriores después del ajuste de la tarea. ¿La pérdida de entropía cruzada es siempre una buena métrica? La puntuación BLEU se acerca más a la ley logarítmica. Los investigadores dieron dos pautas para evaluar el valor de los conjuntos de datos previos al entrenamiento para tareas posteriores específicas. Los resultados experimentales muestran que el entrenamiento previo tiene poca mejora en la puntuación BLEU, y la ley de escala aplicada a la puntuación BLEU es diferente de la entropía cruzada y la perplejidad, que siguen un comportamiento de escala de ley de potencia. La correlación entre la entropía cruzada y la puntuación BLEU no es buena, y la guía de evaluación de datos previa al entrenamiento proporciona un método de evaluación del valor de las tareas posteriores. El impacto de un conjunto de datos previo al entrenamiento en el desempeño de la tarea depende del grado de alineación, y un conjunto de datos previo al entrenamiento que sea demasiado grande puede no generar mejoras adicionales. La Ley de escala se puede utilizar para predecir mejoras en el rendimiento de las tareas posteriores. Si la Ley de escala se puede adaptar a la puntuación BLEU indica qué tan bien están alineados los datos previos al entrenamiento con la tarea de traducción específica.En resumen, este estudio revela el papel de la Ley de Escala en la evaluación de la efectividad de los datos previos al entrenamiento de modelos grandes y destaca la importancia de seleccionar métricas de evaluación apropiadas y considerar el grado de alineación de los datos previos al entrenamiento con las tareas posteriores, proporcionando información valiosa para Experiencia y orientación en modelos grandes. Las investigaciones futuras pueden explorar más a fondo indicadores y métodos de evaluación más efectivos para guiar mejor la capacitación y optimización de modelos grandes.