Los modelos generativos de lenguaje grande (LLM) se utilizan cada vez más y su funcionamiento eficiente depende de una potente potencia informática. Nació PowerInfer. Es un innovador motor de inferencia híbrido GPU-CPU diseñado para mejorar la velocidad de ejecución y la eficiencia de LLM en computadoras comunes. PowerInfer aprovecha inteligentemente las ventajas de la CPU y la GPU para precargar neuronas activadas en frío en la CPU y neuronas activadas en caliente en la GPU, logrando así un acceso y cálculo rápidos. Esta tecnología supera el cuello de botella de rendimiento de LLM en dispositivos con recursos informáticos limitados, brindando a los usuarios una experiencia más conveniente y eficiente.
Los modelos generativos de lenguaje grande son conocidos por su desempeño sobresaliente en una variedad de tareas, incluido el procesamiento complejo del lenguaje natural, la escritura creativa, la respuesta a preguntas y la generación de código. LLM se ha ejecutado en sistemas locales fáciles de usar, incluidas PC domésticas con GPU de consumo. Se entiende que PowerInfer es un motor de inferencia híbrido GPU-CPU que aprovecha este conocimiento. Precarga neuronas activadas en frío en la CPU para realizar cálculos y neuronas activadas en caliente en la GPU para acceso inmediato. Tras la evaluación, PowerInfer también demostró que se ejecuta 11,69 veces más rápido que el sistema llama.cpp actual manteniendo la fidelidad del modelo. En resumen, PowerInfer mejora significativamente la velocidad de inferencia de LLM, lo que demuestra su rendimiento como computadora de escritorio con capacidades de GPU limitadas.
La aparición de PowerInfer marca un nuevo hito en la aplicación de LLM en computadoras comunes. Su importante mejora del rendimiento y el mantenimiento de la fidelidad del modelo brindan una experiencia de IA más fluida y conveniente para la mayoría de los usuarios, y también presagia más posibilidades para aplicaciones LLM en el futuro.