生成式LLM PowerInfer：單一GPU就能運行，機器學習模型推理速度提高11倍

作者：Eve Cole 更新時間：2025-01-17 17:00:02

生成式大語言模型(LLM)的應用日益廣泛，其高效運作依賴強大的運算能力。 PowerInfer應運而生，它是一款創新的GPU-CPU混合推理引擎，旨在提升LLM在普通電腦上的運行速度和效率。 PowerInfer巧妙地利用CPU和GPU的優勢，將冷激活神經元預先加載到CPU上，熱激活神經元預先加載到GPU上，從而實現快速存取和計算。這項技術突破了LLM在運算資源有限設備上的效能瓶頸，為使用者提供了更便利、更有效率的使用體驗。

生成式大語言模型因其在各種任務中的出色表現而聞名，包括複雜的自然語言處理、創意寫作、問答和程式碼生成。 LLM已在易於使用的本地系統上運行，包括具有消費級GPU的家用PC。據了解，PowerInfer 是一款利用了這種理解的GPU-CPU 混合推理引擎，它將冷激活神經元預先加載到CPU 上進行計算，將熱激活神經元預先加載到GPU 上進行即時存取。經過評估，PowerInfer 也表明，它的運行速度比目前的llama.cpp 系統快11.69倍，同時保持模型保真度。總之，PowerInfer 顯著提高了LLM 推理速度，表明其作為在GPU 功能有限的桌上型電腦上執行。

PowerInfer的出現，標誌著LLM在普通電腦上的應用邁向了一個新的里程碑。其顯著的效能提升和模型保真度的維持，為廣大用戶帶來了更流暢、更便捷的AI體驗，也預示著未來LLM應用的更多可能性。