A NVIDIA abriu recentemente dois novos modelos: Nemotron-4-Minitron-4B e Nemotron-4-Minitron-8B, que fizeram avanços significativos na eficiência do treinamento. Por meio da tecnologia estruturada de poda e destilação de conhecimento, os dados necessários para o treinamento desses dois modelos foram reduzidos em 40 vezes, e o custo do poder de computação foi reduzido em 1,8 vezes. Isso não apenas representa um salto na tecnologia de IA, mas também traz novas possibilidades ao campo da IA e contribuiu com recursos valiosos para a comunidade de IA.
O treinamento tradicional do modelo de IA requer muitos dados e composição. No entanto, a NVIDIA reduziu significativamente essa demanda usando a poda estruturada e a destilação do conhecimento. Especificamente, em comparação com o treinamento do zero, os dados de token de treinamento necessários para o novo modelo foram reduzidos em 40 vezes e o custo da potência da computação economizou 1,8 vezes. Por trás dessa conquista está a otimização profunda da NVIDIA do modelo existente LLAMA-3.18B.
A poda estrutural é uma tecnologia de compressão de rede neural que simplifica a estrutura do modelo, removendo pesos sem importância. Diferentes dos ramos aleatórios, os ramos estruturados retêm a estrutura da matriz de peso.
A destilação do conhecimento é uma maneira de melhorar o desempenho, imitando o modelo de professores de modelos de alunos. Na prática da NVIDIA, por meio da destilação de conhecimento baseada em logit, o modelo do aluno pode aprender a compreensão profunda do modelo de professores e, mesmo que reduz bastante os dados de treinamento, ele pode manter um excelente desempenho.
Os modelos Minitron-4B e Minitron-8B treinados por ramos estruturados e destilação de conhecimento aumentaram 16%no MMLU, e o desempenho pode ser comparável a modelos conhecidos como Mistral7b, Gemma7b e LLAMA-38B. Essa conquista prova a eficácia do método da NVIDIA e também fornece novas possibilidades para o treinamento e implantação de grandes modelos de IA.
Essa medida de código aberto da NVIDIA não apenas mostra sua posição de liderança na tecnologia de IA, mas também traz recursos valiosos para a comunidade de IA. Com o progresso contínuo da tecnologia de IA, esperamos ver métodos mais inovadores para promover a IA para se desenvolver em uma direção mais eficiente e mais inteligente.
Endereço do modelo:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
Os dois principais modelos de código aberto da NVIDIA fornecem novas idéias para a melhoria da eficiência do campo de IA e também indicam a redução adicional dos futuros custos de treinamento de modelos de IA e maior expansão do escopo da aplicação. Ansioso por aplicativos mais inovadores com base nisso.