Modelos generativos de grandes linguagens (LLM) são cada vez mais utilizados e sua operação eficiente depende de um poderoso poder de computação. PowerInfer surgiu. É um mecanismo de inferência híbrido GPU-CPU inovador projetado para melhorar a velocidade de execução e a eficiência do LLM em computadores comuns. O PowerInfer aproveita de forma inteligente as vantagens da CPU e da GPU para pré-carregar neurônios ativados a frio na CPU e neurônios ativados a quente na GPU, obtendo assim acesso e cálculo rápidos. Essa tecnologia rompe o gargalo de desempenho do LLM em dispositivos com recursos computacionais limitados, proporcionando aos usuários uma experiência mais conveniente e eficiente.
Os modelos generativos de linguagem grande são conhecidos por seu excelente desempenho em uma variedade de tarefas, incluindo processamento complexo de linguagem natural, escrita criativa, resposta a perguntas e geração de código. O LLM foi executado em sistemas locais fáceis de usar, incluindo PCs domésticos com GPUs de consumo. Entende-se que o PowerInfer é um mecanismo de inferência híbrido GPU-CPU que aproveita esse entendimento. Ele pré-carrega neurônios ativados a frio na CPU para cálculo e neurônios ativados a quente na GPU para acesso imediato. Após avaliação, o PowerInfer também mostrou que funciona 11,69 vezes mais rápido que o sistema llama.cpp atual, mantendo a fidelidade do modelo. Em resumo, o PowerInfer melhora significativamente a velocidade de inferência do LLM, demonstrando seu desempenho como um computador desktop com recursos limitados de GPU.
O surgimento do PowerInfer marca um novo marco na aplicação do LLM em computadores comuns. Sua melhoria significativa de desempenho e manutenção da fidelidade do modelo trazem uma experiência de IA mais suave e conveniente para a maioria dos usuários e também anunciam mais possibilidades para aplicações LLM no futuro.