生成式LLM PowerInfer：单个GPU就能运行，机器学习模型推理速度提高11倍

作者：Eve Cole 更新时间：2025-01-17 17:00:02

生成式大语言模型(LLM)的应用日益广泛，其高效运行依赖于强大的计算能力。PowerInfer应运而生，它是一款创新的GPU-CPU混合推理引擎，旨在提升LLM在普通电脑上的运行速度和效率。PowerInfer巧妙地利用CPU和GPU的优势，将冷激活神经元预加载到CPU上，热激活神经元预加载到GPU上，从而实现快速访问和计算。这项技术突破了LLM在计算资源有限设备上的性能瓶颈，为用户提供了更便捷、高效的使用体验。

生成式大语言模型因其在各种任务中的出色表现而闻名，包括复杂的自然语言处理、创意写作、问答和代码生成。LLM已在易于使用的本地系统上运行，包括带有消费级GPU的家用PC。据了解，PowerInfer 是一款利用了这种理解的 GPU-CPU 混合推理引擎，它将冷激活神经元预加载到 CPU 上进行计算，将热激活神经元预加载到 GPU 上进行即时访问。经过评估，PowerInfer 还表明，它的运行速度比当前的 llama.cpp 系统快11.69倍，同时保持模型保真度。总之，PowerInfer 显着提高了 LLM 推理速度，表明其作为在 GPU 功能有限的台式电脑上执行。

PowerInfer的出现，标志着LLM在普通电脑上的应用迈向了一个新的里程碑。其显著的性能提升和模型保真度的保持，为广大用户带来了更流畅、更便捷的AI体验，也预示着未来LLM应用的更多可能性。