A pesquisa mais recente da Apple: melhorando a velocidade de inferência de memória limitada em 25 vezes

Autor：Eve Cole Data da Última Atualização：2025-01-16 17:16:01

A Apple divulgou recentemente um resultado de pesquisa que melhora significativamente a eficiência de grandes modelos de linguagem em dispositivos com memória limitada. Esta pesquisa armazena de forma inteligente os parâmetros do modelo na memória flash e os carrega na DRAM sob demanda quando necessário, resolvendo efetivamente o problema de gargalo de memória e alcançando um grande salto na velocidade de inferência por meio de uma série de estratégias de otimização. Este avanço tecnológico abre caminho para a aplicação de grandes modelos de linguagem em ambientes com recursos limitados, como dispositivos móveis e sistemas embarcados, e tem um significado prático importante.

A pesquisa mais recente da Apple aponta que quando a memória do dispositivo é limitada, ao armazenar parâmetros do modelo na memória flash e carregá-los na DRAM sob demanda durante a inferência, a eficiência operacional de modelos de linguagem grande foi melhorada com sucesso e a velocidade de inferência aumentou 25 vezes . Este método otimiza o modelo de custo de inferência, reduz a quantidade de transmissão de dados e introduz estratégias de janelas e tecnologia de agrupamento linha-coluna, tornando possível executar modelos duas vezes maiores que a capacidade DRAM disponível em dispositivos com capacidade de memória limitada. Comparado com o método de carregamento ingênuo, a velocidade de inferência da CPU e GPU é aumentada em 4-5 vezes e 20-25 vezes, respectivamente. Ao mesmo tempo, combina reconhecimento esparso, carregamento adaptável ao contexto e design orientado a hardware para facilitar o. inferência de grandes modelos de linguagem em dispositivos com memória limitada traz novas possibilidades. O artigo detalhado pode ser encontrado [aqui](https://arxiv.org/pdf/2312.11514.pdf).

O resultado desta investigação não só alcança uma melhoria significativa na velocidade, mas, mais importante ainda, proporciona a possibilidade de aplicação de grandes modelos de linguagem numa gama mais ampla de dispositivos, indicando que a tecnologia de IA será mais popular e conveniente no futuro. Esta inovação da Apple traz um novo rumo ao desenvolvimento do campo da IA.