Numa era em que os dispositivos móveis e as casas inteligentes são cada vez mais populares, a execução eficiente de grandes modelos de linguagem (LLM) tornou-se uma necessidade urgente. No entanto, os recursos de computação e a memória limitados dos dispositivos de ponta tornam-se gargalos. Este artigo apresenta a tecnologia T-MAC, um método baseado em tabelas de consulta, que pode melhorar significativamente a eficiência operacional do LLM de baixo bit em dispositivos de borda, trazendo recursos de processamento inteligente mais poderosos para dispositivos inteligentes, alcançando assim um usuário inteligente mais conveniente e eficiente experiência.
Nesta era em que os dispositivos inteligentes estão por toda parte, estamos ansiosos para fazer com que telefones celulares, tablets e até mesmo dispositivos domésticos inteligentes tenham capacidades de processamento inteligente mais poderosas. No entanto, esses dispositivos de borda têm recursos de hardware limitados, especialmente memória e poder de computação, o que limita a implantação e a execução de grandes modelos de linguagem (LLMs) neles. Imagine como mudaria o nosso mundo se pudéssemos equipar estes dispositivos com modelos poderosos que pudessem compreender a linguagem natural, responder a perguntas e até mesmo criar?
Este é o pano de fundo para o nascimento da tecnologia T-MAC. T-MAC, o nome completo do MAC baseado em pesquisa de tabela, é um método baseado em tabelas de pesquisa, que permite que modelos de linguagem grandes e com poucos bits sejam executados com eficiência na CPU, obtendo assim atualizações inteligentes em dispositivos de borda.
Grandes modelos de linguagem geralmente contêm bilhões ou até dezenas de bilhões de parâmetros, que requerem grandes quantidades de memória para serem armazenados. Para implantar esses modelos em dispositivos de ponta, precisamos quantizar os pesos do modelo, ou seja, usar menos bits para representar os pesos, reduzindo assim o consumo de memória do modelo. No entanto, o modelo quantizado requer multiplicação de matrizes de precisão mista (mpGEMM) durante a operação, o que não é comum em sistemas de hardware e software existentes e carece de suporte eficiente.
A ideia central do T-MAC é transformar as operações tradicionais de multiplicação baseadas em tipos de dados em pesquisas de tabela de consulta baseada em bits (LUT). Este método não apenas elimina as operações de multiplicação, mas também reduz as operações de adição, melhorando significativamente a eficiência operacional.
Especificamente, o T-MAC é implementado através das seguintes etapas:
Decomponha a matriz de pesos em múltiplas matrizes de um bit.
Pré-calcule o produto do vetor de ativação com todos os padrões possíveis de um bit e armazene os resultados em uma tabela de consulta.
Durante a inferência, o resultado final da multiplicação da matriz é obtido rapidamente por meio de índice da tabela de consulta e operações de acumulação.
Através de testes em uma variedade de dispositivos de ponta, o T-MAC mostrou vantagens significativas de desempenho. Comparado com a implementação existente do llama.cpp, o T-MAC melhora o rendimento em 4 vezes e reduz o consumo de energia em 70%. Isso permite que até mesmo dispositivos de baixo custo, como o Raspberry Pi5, gerem tokens mais rápido do que a velocidade média de leitura de um adulto.
O T-MAC não tem apenas vantagens teóricas, mas também potencial para aplicações práticas. Seja realizando reconhecimento de fala em tempo real e processamento de linguagem natural em smartphones ou fornecendo uma experiência interativa mais inteligente em dispositivos domésticos inteligentes, o T-MAC pode desempenhar um papel importante.
A tecnologia T-MAC fornece uma solução eficiente e com economia de energia para a implantação de modelos de linguagem grandes e com poucos bits em dispositivos de borda. Ele pode não apenas melhorar o nível de inteligência do dispositivo, mas também proporcionar aos usuários uma experiência inteligente mais rica e conveniente. Com o contínuo desenvolvimento e otimização da tecnologia, temos motivos para acreditar que o T-MAC desempenhará um papel cada vez mais importante no campo da inteligência de ponta.
Endereço de código aberto: https://github.com/microsoft/T-MAC
Endereço do artigo: https://www.arxiv.org/pdf/2407.00088
O surgimento da tecnologia T-MAC trouxe novos avanços no campo da computação de ponta. Sua alta eficiência e economia de energia fazem com que ela tenha amplas perspectivas de aplicação em vários dispositivos inteligentes. Acredito que no futuro o T-MAC será ainda melhorado e contribuirá para a construção de um mundo mais inteligente e conveniente.