生成式大語言模型(LLM)的應用日益廣泛,其高效運作依賴強大的運算能力。 PowerInfer應運而生,它是一款創新的GPU-CPU混合推理引擎,旨在提升LLM在普通電腦上的運行速度和效率。 PowerInfer巧妙地利用CPU和GPU的優勢,將冷激活神經元預先加載到CPU上,熱激活神經元預先加載到GPU上,從而實現快速存取和計算。這項技術突破了LLM在運算資源有限設備上的效能瓶頸,為使用者提供了更便利、更有效率的使用體驗。
生成式大語言模型因其在各種任務中的出色表現而聞名,包括複雜的自然語言處理、創意寫作、問答和程式碼生成。 LLM已在易於使用的本地系統上運行,包括具有消費級GPU的家用PC。據了解,PowerInfer 是一款利用了這種理解的GPU-CPU 混合推理引擎,它將冷激活神經元預先加載到CPU 上進行計算,將熱激活神經元預先加載到GPU 上進行即時存取。經過評估,PowerInfer 也表明,它的運行速度比目前的llama.cpp 系統快11.69倍,同時保持模型保真度。總之,PowerInfer 顯著提高了LLM 推理速度,表明其作為在GPU 功能有限的桌上型電腦上執行。
PowerInfer的出現,標誌著LLM在普通電腦上的應用邁向了一個新的里程碑。其顯著的效能提升和模型保真度的維持,為廣大用戶帶來了更流暢、更便捷的AI體驗,也預示著未來LLM應用的更多可能性。