Les grands modèles de langage génératifs (LLM) sont de plus en plus utilisés et leur fonctionnement efficace repose sur une puissance de calcul puissante. PowerInfer a vu le jour. Il s'agit d'un moteur d'inférence hybride GPU-CPU innovant conçu pour améliorer la vitesse d'exécution et l'efficacité du LLM sur les ordinateurs ordinaires. PowerInfer tire intelligemment parti des avantages du CPU et du GPU pour précharger les neurones activés à froid sur le CPU et les neurones activés à chaud sur le GPU, permettant ainsi un accès et un calcul rapides. Cette technologie élimine le goulot d'étranglement des performances de LLM sur les appareils dotés de ressources informatiques limitées, offrant aux utilisateurs une expérience plus pratique et plus efficace.
Les grands modèles de langage génératifs sont connus pour leurs performances exceptionnelles dans une variété de tâches, notamment le traitement complexe du langage naturel, l'écriture créative, la réponse aux questions et la génération de code. LLM a été exécuté sur des systèmes locaux faciles à utiliser, notamment des PC domestiques équipés de GPU grand public. Il est entendu que PowerInfer est un moteur d'inférence hybride GPU-CPU qui tire parti de cette compréhension. Il précharge les neurones activés à froid sur le CPU pour le calcul et les neurones activés à chaud sur le GPU pour un accès immédiat. Après évaluation, PowerInfer a également montré qu'il fonctionne 11,69 fois plus rapidement que le système llama.cpp actuel tout en conservant la fidélité du modèle. En résumé, PowerInfer améliore considérablement la vitesse d'inférence LLM, démontrant ses performances en tant qu'ordinateur de bureau avec des capacités GPU limitées.
L'émergence de PowerInfer marque une nouvelle étape dans l'application du LLM sur des ordinateurs ordinaires. Son amélioration significative des performances et le maintien de la fidélité du modèle apportent une expérience d'IA plus fluide et plus pratique à la majorité des utilisateurs, et annoncent également davantage de possibilités pour les applications LLM à l'avenir.