O rápido desenvolvimento de grandes modelos de linguagem (LLMs) trouxe incríveis capacidades de processamento de linguagem natural, mas seus enormes requisitos de computação e armazenamento limitam sua popularidade. A execução de um modelo com 176 bilhões de parâmetros requer centenas de gigabytes de espaço de armazenamento e várias GPUs de última geração, tornando-o caro e difícil de escalar. Para resolver este problema, os investigadores concentraram-se em técnicas de compressão de modelos, como a quantização, para reduzir o tamanho do modelo e os requisitos de execução, mas também enfrentam o risco de perda de precisão.
A inteligência artificial (IA) está se tornando mais inteligente, especialmente os grandes modelos de linguagem (LLMs), que são incríveis no processamento da linguagem natural. Mas você sabia? Por trás desses cérebros inteligentes de IA, é necessário um enorme poder de computação e espaço de armazenamento para suportá-los.
Um modelo Bloom multilíngue com 176 bilhões de parâmetros requer pelo menos 350 GB de espaço apenas para armazenar os pesos do modelo e também requer várias GPUs avançadas para funcionar. Isto não é apenas caro, mas também difícil de popularizar.
Para resolver este problema, os pesquisadores propuseram uma técnica chamada “quantificação”. A quantificação é como "reduzir" o cérebro da IA. Ao mapear os pesos e ativações do modelo para um formato de dados de dígitos inferiores, ela não apenas reduz o tamanho do modelo, mas também acelera a velocidade de execução do modelo. Mas esse processo também traz riscos e alguma precisão pode ser perdida.
Diante deste desafio, pesquisadores da Universidade Beihang e da SenseTime Technology desenvolveram em conjunto o kit de ferramentas LLMC. LLMC é como um treinador pessoal de perda de peso para IA. Ele pode ajudar pesquisadores e desenvolvedores a encontrar o plano de perda de peso mais adequado, o que pode tornar o modelo de IA mais leve sem afetar seu nível de inteligência.
O kit de ferramentas LLMC possui três recursos principais:
Diversificação: o LLMC oferece 16 métodos quantitativos diferentes, o que é como preparar 16 receitas diferentes de perda de peso para IA. Quer sua IA queira perder peso total ou localmente, o LLMC pode atender às suas necessidades.
Baixo custo: o LLMC economiza muito recursos e requer pouco suporte de hardware, mesmo para processar modelos muito grandes. Por exemplo, usando apenas uma GPU A100 de 40GB, o modelo OPT-175B com 175 bilhões de parâmetros pode ser ajustado e avaliado. Isto é tão eficiente quanto usar uma esteira doméstica para treinar um campeão olímpico!
Alta compatibilidade: o LLMC oferece suporte a uma variedade de configurações de quantização e formatos de modelo, e também é compatível com uma variedade de back-ends e plataformas de hardware. É como um treinador universal que pode ajudá-lo a desenvolver um plano de treinamento adequado, independentemente do equipamento usado.
Aplicações práticas do LLMC: tornando a IA mais inteligente e mais eficiente em termos energéticos
O surgimento do kit de ferramentas LLMC fornece um teste de referência abrangente e justo para a quantificação de grandes modelos de linguagem. Ele considera três fatores principais: dados de treinamento, algoritmo e formato de dados para ajudar os usuários a encontrar a melhor solução de otimização de desempenho.
Em aplicações práticas, o LLMC pode ajudar pesquisadores e desenvolvedores a integrar algoritmos apropriados e formatos de baixo bit de forma mais eficiente, promovendo a popularização da compressão de grandes modelos de linguagem. Isso significa que poderemos ver aplicações de IA mais leves, mas igualmente poderosas, no futuro.
Os autores do artigo também compartilharam algumas descobertas e sugestões interessantes:
Ao selecionar dados de treinamento, você deve escolher um conjunto de dados que seja mais semelhante aos dados de teste em termos de distribuição de vocabulário, assim como quando os humanos perdem peso, eles precisam escolher receitas apropriadas com base em suas próprias circunstâncias.
Em termos de algoritmos de quantificação, exploraram o impacto das três técnicas principais de transformação, corte e reconstrução, tal como compararam os efeitos de diferentes métodos de exercício na perda de peso.
Ao escolher entre a quantização de inteiros e de ponto flutuante, eles descobriram que a quantização de ponto flutuante tem mais vantagens no tratamento de situações complexas, enquanto a quantização de inteiros pode ser melhor em alguns casos especiais. É como se fossem necessárias diferentes intensidades de exercício em diferentes estágios de perda de peso.
O advento do kit de ferramentas LLMC trouxe uma nova tendência para o campo da IA. Ele não apenas fornece um assistente poderoso para pesquisadores e desenvolvedores, mas também aponta a direção para o desenvolvimento futuro da IA. Através do LLMC, podemos esperar aplicações de IA mais leves e de alto desempenho, permitindo que a IA realmente entre em nossas vidas diárias.
Endereço do projeto: https://github.com/ModelTC/llmc
Endereço do artigo: https://arxiv.org/pdf/2405.06001
Em suma, o kit de ferramentas LLMC fornece uma solução eficaz para resolver o problema de consumo de recursos de grandes modelos de linguagem. Ele não apenas reduz o custo e o limite de operação do modelo, mas também melhora a eficiência e a usabilidade do modelo, injetando uma injeção no modelo. popularização e desenvolvimento da nova vitalidade. No futuro, podemos esperar o surgimento de aplicativos de IA mais leves baseados em LLMC, trazendo mais conveniência para nossas vidas.