O Google usa modelos pequenos para acelerar modelos grandes de treinamento de IA, melhorando a eficiência em 28% - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-18 16:48:01

No campo da inteligência artificial, o treinamento de grandes modelos de idiomas (LLM) sempre foi uma tarefa intensiva em recursos, geralmente apenas alguns gigantes da tecnologia podem realizar. No entanto, o método Salt Salt recentemente lançado pelo Google (pequeno modelo de modelo de modelo de grande modelo) pode mudar completamente essa situação. Essa inovação não apenas reduz os custos de treinamento, mas também melhora o desempenho do modelo, abrindo a porta para o desenvolvimento da IA para mais instituições e empresas de pesquisa.

机器人人工智能 AI (4)

Notas da fonte da imagem: A imagem é gerada pela IA e a imagem autorizada provedor de serviços Midjourney

O núcleo do método de sal está em seu processo de treinamento em dois estágios. O primeiro estágio é a destilação do conhecimento, e o pequeno modelo de linguagem (SLM) atua como um "professor", passa o conhecimento aprendido para o grande modelo através de "tags suaves". Esse estágio é particularmente adequado para tarefas básicas que os pequenos modelos dominaram, ajudando modelos grandes a estabelecer uma base sólida no aprendizado precoce.

O segundo estágio é o aprendizado auto-supervisionado, com grandes modelos começando a aprender de forma independente, concentrando-se em tarefas mais complexas. Essa fase da transição requer um design cuidadoso, incluindo estratégias como atenuação linear e atenuação proporcional linear, para garantir que grandes modelos possam reduzir gradualmente sua dependência de pequenos modelos e, finalmente, alcançar a aprendizagem e otimização independentes.

A pesquisa do Google mostra que o uso do método de sal para treinar um modelo grande com 2,8 bilhões de parâmetros tem uma redução de 28% no tempo e melhorou a precisão em problemas matemáticos e as tarefas de compreensão de leitura em 3% e 4%, respectivamente. Essa melhoria significativa de desempenho não apenas demonstra a eficiência do sal, mas também demonstra seu forte potencial em tarefas complexas.

O surgimento do sal não apenas melhora a eficiência do treinamento, mas também reduz o limiar para o desenvolvimento da IA. No passado, os custos de treinamento apenas grandes empresas de tecnologia podiam pagar e agora muitas pequenas instituições e empresas de pesquisa podem participar. Isso promoverá o surgimento de soluções de IA mais inovadoras e profissionais e promoverão ainda mais o desenvolvimento do campo da inteligência artificial.

Em geral, o método de sal não apenas melhora o desempenho de grandes modelos, introduzindo o treinamento auxiliar de pequenos modelos, mas também reduz bastante o custo de treinamento. Espera -se que essa inovação desencadeie uma revolução no campo da IA, permitindo que mais instituições participem da pesquisa e desenvolvimento da IA e promovam o progresso de todo o setor.