À une époque où les appareils mobiles et les maisons intelligentes sont de plus en plus populaires, exécuter efficacement des modèles linguistiques étendus (LLM) est devenu un besoin urgent. Cependant, les ressources informatiques et la mémoire limitées des appareils de pointe deviennent des goulots d'étranglement. Cet article présente la technologie T-MAC, une méthode basée sur des tables de recherche, qui peut améliorer considérablement l'efficacité opérationnelle du LLM à faible bit sur les appareils de périphérie, apportant des capacités de traitement intelligent plus puissantes aux appareils intelligents, permettant ainsi d'obtenir un utilisateur intelligent plus pratique et plus efficace. expérience.
À l’ère où les appareils intelligents sont partout, nous sommes impatients de doter les téléphones mobiles, les tablettes et même les appareils domestiques intelligents de capacités de traitement intelligentes plus puissantes. Cependant, ces appareils de pointe disposent de ressources matérielles limitées, notamment de mémoire et de puissance de calcul, ce qui limite le déploiement et l'exécution de grands modèles de langage (LLM) sur eux. Imaginez comment cela changerait notre monde si nous pouvions équiper ces appareils de modèles puissants capables de comprendre le langage naturel, de répondre aux questions et même de créer ?
C’est dans ce contexte qu’est née la technologie T-MAC. T-MAC, le nom complet de MAC basé sur la recherche de tables, est une méthode basée sur des tables de recherche, qui permet à de grands modèles de langage à faible bit de s'exécuter efficacement sur le processeur, réalisant ainsi des mises à niveau intelligentes sur les appareils de périphérie.
Les grands modèles de langage contiennent souvent des milliards, voire des dizaines de milliards de paramètres, qui nécessitent de grandes quantités de mémoire pour être stockés. Afin de déployer ces modèles sur des appareils de pointe, nous devons quantifier les poids du modèle, c'est-à-dire utiliser moins de bits pour représenter les poids, réduisant ainsi l'empreinte mémoire du modèle. Cependant, le modèle quantifié nécessite une multiplication matricielle à précision mixte (mpGEMM) pendant le fonctionnement, ce qui n'est pas courant dans les systèmes matériels et logiciels existants et manque de support efficace.
L'idée principale de T-MAC est de transformer les opérations de multiplication traditionnelles basées sur le type de données en recherches de table de recherche (LUT) basées sur les bits. Ce procédé élimine non seulement les opérations de multiplication, mais réduit également les opérations d'addition, améliorant ainsi considérablement l'efficacité opérationnelle.
Plus précisément, T-MAC est mis en œuvre à travers les étapes suivantes :
Décomposez la matrice de poids en plusieurs matrices d'un bit.
Précalculez le produit du vecteur d'activation avec tous les modèles possibles sur un bit et stockez les résultats dans une table de recherche.
Lors de l'inférence, le résultat final de la multiplication matricielle est rapidement obtenu grâce à des opérations d'indexation de table de recherche et d'accumulation.
Grâce à des tests sur une variété d'appareils de pointe, le T-MAC a montré des avantages significatifs en termes de performances. Par rapport à l'implémentation existante de llama.cpp, T-MAC améliore le débit de 4 fois et réduit la consommation d'énergie de 70 %. Cela permet même aux appareils bas de gamme, tels que le Raspberry Pi5, de générer des jetons plus rapidement que la vitesse de lecture moyenne des adultes.
Le T-MAC présente non seulement des avantages théoriques, mais il présente également un potentiel d’applications pratiques. Qu'il s'agisse d'effectuer une reconnaissance vocale en temps réel et un traitement du langage naturel sur les smartphones, ou de fournir une expérience interactive plus intelligente sur les appareils domestiques intelligents, le T-MAC peut jouer un rôle important.
La technologie T-MAC fournit une solution efficace et économe en énergie pour le déploiement de modèles de langage volumineux à faible bit sur les appareils de périphérie. Cela peut non seulement améliorer le niveau d'intelligence de l'appareil, mais également offrir aux utilisateurs une expérience intelligente plus riche et plus pratique. Avec le développement et l’optimisation continus de la technologie, nous avons des raisons de croire que le T-MAC jouera un rôle de plus en plus important dans le domaine de l’intelligence de pointe.
Adresse open source : https://github.com/microsoft/T-MAC
Adresse papier : https://www.arxiv.org/pdf/2407.00088
L'émergence de la technologie T-MAC a apporté de nouvelles avancées dans le domaine de l'informatique de pointe. Son rendement élevé et ses économies d'énergie lui confèrent de larges perspectives d'application sur divers appareils intelligents. Je pense qu'à l'avenir, le T-MAC sera encore amélioré et contribuera à construire un monde plus intelligent et plus pratique.