Model bahasa besar generatif (LLM) semakin banyak digunakan, dan pengoperasiannya yang efisien bergantung pada daya komputasi yang kuat. PowerInfer muncul. Ini adalah mesin inferensi hybrid GPU-CPU inovatif yang dirancang untuk meningkatkan kecepatan lari dan efisiensi LLM pada komputer biasa. PowerInfer secara cerdik memanfaatkan keunggulan CPU dan GPU untuk melakukan pramuat neuron yang diaktifkan secara dingin pada CPU dan neuron yang diaktifkan secara panas pada GPU, sehingga mencapai akses dan perhitungan yang cepat. Teknologi ini menerobos hambatan kinerja LLM pada perangkat dengan sumber daya komputasi terbatas, memberikan pengalaman yang lebih nyaman dan efisien kepada pengguna.
Model bahasa besar generatif dikenal karena performanya yang luar biasa dalam berbagai tugas, termasuk pemrosesan bahasa alami yang kompleks, penulisan kreatif, menjawab pertanyaan, dan pembuatan kode. LLM telah dijalankan pada sistem lokal yang mudah digunakan, termasuk PC rumahan dengan GPU tingkat konsumen. Dapat dipahami bahwa PowerInfer adalah mesin inferensi hibrid GPU-CPU yang memanfaatkan pemahaman ini. Mesin ini memuat neuron yang diaktifkan secara dingin ke dalam CPU untuk perhitungan dan neuron yang diaktifkan secara panas ke dalam GPU untuk akses langsung. Setelah evaluasi, PowerInfer juga menunjukkan bahwa sistem ini berjalan 11,69 kali lebih cepat daripada sistem llama.cpp saat ini dengan tetap menjaga fidelitas model. Singkatnya, PowerInfer secara signifikan meningkatkan kecepatan inferensi LLM, menunjukkan kinerjanya sebagai komputer desktop dengan kemampuan GPU terbatas.
Munculnya PowerInfer menandai tonggak baru dalam penerapan LLM pada komputer biasa. Peningkatan kinerja yang signifikan dan pemeliharaan fidelitas model menghadirkan pengalaman AI yang lebih lancar dan nyaman bagi pengguna, dan juga membuka lebih banyak kemungkinan untuk aplikasi LLM di masa depan.