In einer Zeit, in der mobile Geräte und Smart Homes immer beliebter werden, ist der effiziente Betrieb großer Sprachmodelle (LLM) zu einem dringenden Bedarf geworden. Allerdings werden die begrenzten Rechenressourcen und der begrenzte Speicher von Edge-Geräten zu Engpässen. In diesem Artikel wird die T-MAC-Technologie vorgestellt, eine auf Nachschlagetabellen basierende Methode, die die Betriebseffizienz von Low-Bit-LLM auf Edge-Geräten erheblich verbessern kann, intelligentere Geräte mit leistungsfähigeren intelligenten Verarbeitungsfunktionen ausstattet und so einen komfortableren und effizienteren Smart-Benutzer erreicht Erfahrung.
In dieser Zeit, in der intelligente Geräte allgegenwärtig sind, sind wir bestrebt, Mobiltelefone, Tablets und sogar Smart-Home-Geräte mit leistungsfähigeren intelligenten Verarbeitungsfunktionen auszustatten. Allerdings verfügen diese Edge-Geräte über begrenzte Hardwareressourcen, insbesondere Speicher und Rechenleistung, was die Bereitstellung und Ausführung großer Sprachmodelle (LLMs) auf ihnen einschränkt. Stellen Sie sich vor, wie es unsere Welt verändern würde, wenn wir diese Geräte mit leistungsstarken Modellen ausstatten könnten, die natürliche Sprache verstehen, Fragen beantworten und sogar etwas erschaffen könnten?
Dies ist der Hintergrund für die Geburt der T-MAC-Technologie. T-MAC, der vollständige Name für Table-Lookup-based MAC, ist eine auf Nachschlagetabellen basierende Methode, die es ermöglicht, große Sprachmodelle mit niedriger Bitrate effizient auf der CPU auszuführen und so intelligente Upgrades auf Edge-Geräten zu ermöglichen.
Große Sprachmodelle enthalten oft Milliarden oder sogar Dutzende Milliarden Parameter, deren Speicherung große Speichermengen erfordert. Um diese Modelle auf Edge-Geräten bereitzustellen, müssen wir die Gewichte des Modells quantisieren, das heißt, wir müssen weniger Bits zur Darstellung der Gewichte verwenden, wodurch der Speicherbedarf des Modells verringert wird. Allerdings erfordert das quantisierte Modell während des Betriebs eine Matrixmultiplikation mit gemischter Präzision (mpGEMM), was in bestehenden Hardware- und Softwaresystemen nicht üblich ist und keine effiziente Unterstützung bietet.
Die Kernidee von T-MAC besteht darin, herkömmliche datentypbasierte Multiplikationsoperationen in bitbasierte Lookup-Table (LUT)-Lookups umzuwandeln. Diese Methode eliminiert nicht nur Multiplikationsoperationen, sondern reduziert auch Additionsoperationen, wodurch die betriebliche Effizienz erheblich verbessert wird.
Konkret wird T-MAC durch die folgenden Schritte implementiert:
Zerlegen Sie die Gewichtsmatrix in mehrere Ein-Bit-Matrizen.
Berechnen Sie das Produkt des Aktivierungsvektors mit allen möglichen Ein-Bit-Mustern vor und speichern Sie die Ergebnisse in einer Nachschlagetabelle.
Während der Inferenz wird das endgültige Ergebnis der Matrixmultiplikation schnell durch Index- und Akkumulationsoperationen in der Nachschlagetabelle erhalten.
Durch Tests auf einer Vielzahl von Edge-Geräten hat T-MAC erhebliche Leistungsvorteile gezeigt. Im Vergleich zur bestehenden llama.cpp-Implementierung verbessert T-MAC den Durchsatz um das Vierfache und reduziert den Energieverbrauch um 70 %. Dadurch können selbst Low-End-Geräte wie der Raspberry Pi5 Token schneller generieren als die durchschnittliche Lesegeschwindigkeit eines Erwachsenen.
T-MAC bietet nicht nur theoretische Vorteile, sondern auch das Potenzial für praktische Anwendungen. Ob es darum geht, Echtzeit-Spracherkennung und Verarbeitung natürlicher Sprache auf Smartphones durchzuführen oder ein intelligenteres interaktives Erlebnis auf Smart-Home-Geräten bereitzustellen, T-MAC kann eine wichtige Rolle spielen.
Die T-MAC-Technologie bietet eine effiziente und energiesparende Lösung für die Bereitstellung großer Low-Bit-Sprachmodelle auf Edge-Geräten. Es kann nicht nur die Intelligenz des Geräts verbessern, sondern den Benutzern auch ein umfassenderes und komfortableres intelligentes Erlebnis bieten. Mit der kontinuierlichen Weiterentwicklung und Optimierung der Technologie haben wir Grund zu der Annahme, dass T-MAC eine immer wichtigere Rolle im Bereich Edge Intelligence spielen wird.
Open-Source-Adresse: https://github.com/microsoft/T-MAC
Papieradresse: https://www.arxiv.org/pdf/2407.00088
Das Aufkommen der T-MAC-Technologie hat neue Durchbrüche im Bereich Edge Computing gebracht. Aufgrund ihrer hohen Effizienz und Energieeinsparung bietet sie vielfältige Einsatzmöglichkeiten auf verschiedenen intelligenten Geräten. Ich glaube, dass T-MAC in Zukunft weiter verbessert werden und zum Aufbau einer intelligenteren und komfortableren Welt beitragen wird.