As questões de eficiência e consumo de energia no treinamento de modelos grandes estão se tornando cada vez mais proeminentes, e o otimizador AdamW tradicional é incapaz de lidar com a enorme escala do modelo. Para resolver este problema, uma equipe totalmente chinesa propôs um novo otimizador chamado C-AdamW (Crudent AdamW). A ideia central do C-AdamW é “pensar antes de agir”. Ao identificar com precisão a direção da atualização, o modelo pode evitar o desperdício de recursos no caminho errado, aumentando assim a velocidade de treinamento e reduzindo o consumo de energia. Este otimizador melhora a velocidade de treinamento em até 1,47x no pré-treinamento Llama e MAE com quase nenhuma sobrecarga computacional adicional e pode ser alcançado com modificações simples no código existente.
No mundo da IA, “A força pode realizar milagres” parece ser a regra de ouro. Quanto maior o modelo, mais dados e mais forte o poder computacional, mais próximo ele parece estar do Santo Graal da inteligência. No entanto, por detrás deste rápido desenvolvimento, existem também enormes pressões sobre os custos e o consumo de energia.
Para tornar o treinamento em IA mais eficiente, os cientistas têm procurado otimizadores mais poderosos, como um treinador, para orientar os parâmetros do modelo para otimizar continuamente e, finalmente, alcançar o melhor estado. AdamW, como otimizador padrão para pré-treinamento do Transformer, tem sido referência no setor há muitos anos. No entanto, face à escala cada vez maior do modelo, AdamW também começou a parecer incapaz de lidar com as suas capacidades.
Não existe uma maneira de aumentar a velocidade de treinamento e ao mesmo tempo reduzir o consumo de energia? Não se preocupe, uma equipe totalmente chinesa está aqui com sua “arma secreta” C-AdamW!
O nome completo de C-AdamW é Cautious AdamW, e seu nome chinês é "Cautious AdamW". Não parece muito "budista"? Sim, a ideia central de C-AdamW é "pense antes de agir".
Imagine que os parâmetros do modelo são como um grupo de crianças enérgicas que sempre querem correr. AdamW é como um professor dedicado, tentando guiá-los na direção certa. Mas às vezes as crianças ficam muito entusiasmadas e correm na direção errada, desperdiçando tempo e energia.
Neste momento, C-AdamW é como um ancião sábio, usando um par de “olhos de fogo” que podem identificar com precisão se a direção da atualização está correta. Se a direção estiver errada, C-AdamW irá parar de forma decisiva para evitar que o modelo siga na estrada errada.
Esta estratégia “cautelosa” garante que cada atualização possa efetivamente reduzir a função de perda, acelerando assim a convergência do modelo. Resultados experimentais mostram que C-AdamW aumenta a velocidade de treinamento para 1,47 vezes no pré-treinamento Llama e MAE!
Mais importante ainda, o C-AdamW quase não requer sobrecarga computacional adicional e pode ser implementado com uma simples modificação de uma linha do código existente. Isso significa que os desenvolvedores podem aplicar facilmente o C-AdamW a vários treinamentos de modelos e desfrutar de "velocidade e paixão"!
O aspecto "budista" do C-AdamW é que ele mantém a função hamiltoniana de Adam e não destrói a garantia de convergência sob a análise de Lyapunov. Isso significa que o C-AdamW não só é mais rápido, mas também tem estabilidade garantida e não haverá problemas como travamentos de treinamento.
É claro que “budista” não significa “não empreendedor”. A equipe de pesquisa afirmou que continuará a explorar funções ϕ mais ricas e a aplicar máscaras no espaço de recursos em vez do espaço de parâmetros para melhorar ainda mais o desempenho do C-AdamW.
É previsível que o C-AdamW se torne o novo favorito no campo da aprendizagem profunda, trazendo mudanças revolucionárias ao treinamento de grandes modelos!
Endereço do artigo: https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
O surgimento do C-AdamW oferece uma nova forma de pensar para resolver os problemas de eficiência e consumo de energia do treinamento de grandes modelos. Sua alta eficiência e baixo custo fazem com que ele tenha amplas perspectivas de aplicação, e vale a pena aguardar seu desenvolvimento futuro no. campo de aprendizagem profunda.