Este artigo explora o impacto do tamanho do conjunto de dados de pré-treinamento no desempenho da tarefa downstream no treinamento de modelos grandes, especialmente a Lei de Escalabilidade da aprendizagem por transferência. Os pesquisadores analisaram a relação entre o tamanho do conjunto de dados de pré-treinamento e o desempenho da tarefa downstream (medido como pontuação BLEU e entropia cruzada) e propuseram duas diretrizes para avaliar o valor dos conjuntos de dados de pré-treinamento. O estudo descobriu que a pontuação BLEU é mais consistente com a escala logarítmica, enquanto a correlação de entropia cruzada é fraca. A eficácia do conjunto de dados pré-treinamento depende do alinhamento com as tarefas posteriores, e um conjunto de dados excessivamente grande pode não depender. trazer melhorias adicionais.
O sucesso dos grandes modelos se deve em grande parte à existência da Lei de Escala. Os pesquisadores exploraram a Lei de Escala da aprendizagem por transferência e estudaram dois indicadores: pontuação BLEU downstream e entropia cruzada downstream, e a relação entre o tamanho do conjunto de dados pré-treinamento e o desempenho das tarefas downstream após o ajuste fino da tarefa. A perda de entropia cruzada é sempre uma boa métrica? A pontuação BLEU está mais próxima da lei logarítmica. Os pesquisadores deram duas diretrizes para avaliar o valor dos conjuntos de dados de pré-treinamento para tarefas posteriores alvo. Os resultados experimentais mostram que o pré-treinamento tem pouca melhoria na pontuação BLEU, e a Lei de Escalabilidade aplicada à pontuação BLEU é diferente da entropia cruzada e da perplexidade, que seguem o comportamento de escalação da lei de potência. A correlação entre a entropia cruzada e a pontuação BLEU não é boa, e o guia de avaliação de dados pré-formação fornece um método de avaliação do valor das tarefas a jusante. O impacto de um conjunto de dados de pré-treinamento no desempenho da tarefa depende do grau de alinhamento, e um conjunto de dados de pré-treinamento que seja muito grande pode não trazer melhorias adicionais. A Lei de Escalabilidade pode ser usada para prever melhorias no desempenho da tarefa posterior. Se a Lei de Escalabilidade pode ser adaptada à pontuação BLEU indica quão bem os dados de pré-treinamento estão alinhados com a tarefa de tradução específica.Em resumo, este estudo revela o papel da Lei de Escala na avaliação da eficácia de dados de pré-treinamento de grandes modelos e destaca a importância de selecionar métricas de avaliação apropriadas e considerar o grau de alinhamento dos dados de pré-treinamento com tarefas posteriores, fornecendo insights valiosos para treinamento de grande modelo e orientação. Pesquisas futuras podem explorar ainda mais indicadores e métodos de avaliação mais eficazes para orientar melhor o treinamento e a otimização de grandes modelos.