En una era en la que los dispositivos móviles y los hogares inteligentes son cada vez más populares, ejecutar modelos de lenguaje grandes (LLM) de manera eficiente se ha convertido en una necesidad urgente. Sin embargo, los recursos informáticos y la memoria limitados de los dispositivos perimetrales se convierten en cuellos de botella. Este artículo presenta la tecnología T-MAC, un método basado en tablas de búsqueda, que puede mejorar significativamente la eficiencia operativa del LLM de bits bajos en dispositivos de borde, brindando capacidades de procesamiento inteligente más poderosas a los dispositivos inteligentes, logrando así usuarios inteligentes más convenientes y eficientes. experiencia.
En esta era en la que los dispositivos inteligentes están en todas partes, estamos ansiosos por hacer que los teléfonos móviles, las tabletas e incluso los dispositivos domésticos inteligentes tengan capacidades de procesamiento inteligente más potentes. Sin embargo, estos dispositivos perimetrales tienen recursos de hardware limitados, especialmente memoria y potencia informática, lo que limita la implementación y ejecución de modelos de lenguajes grandes (LLM) en ellos. ¿Imagínese cómo cambiaría nuestro mundo si pudiéramos equipar estos dispositivos con modelos potentes que pudieran comprender el lenguaje natural, responder preguntas e incluso crear?
Este es el trasfondo del nacimiento de la tecnología T-MAC. T-MAC, el nombre completo de MAC basado en búsqueda de tablas, es un método basado en tablas de búsqueda que permite que modelos de lenguaje grandes y de bits bajos se ejecuten de manera eficiente en la CPU, logrando así actualizaciones inteligentes en los dispositivos de borde.
Los modelos de lenguaje grandes a menudo contienen miles de millones o incluso decenas de miles de millones de parámetros, que requieren grandes cantidades de memoria para almacenarse. Para implementar estos modelos en dispositivos de borde, necesitamos cuantificar los pesos del modelo, es decir, usar menos bits para representar los pesos, reduciendo así la huella de memoria del modelo. Sin embargo, el modelo cuantificado requiere una multiplicación de matrices de precisión mixta (mpGEMM) durante la operación, lo cual no es común en los sistemas de hardware y software existentes y carece de soporte eficiente.
La idea central de T-MAC es transformar las operaciones de multiplicación tradicionales basadas en tipos de datos en búsquedas de tablas de búsqueda basadas en bits (LUT). Este método no solo elimina las operaciones de multiplicación, sino que también reduce las operaciones de suma, lo que mejora en gran medida la eficiencia operativa.
Específicamente, T-MAC se implementa mediante los siguientes pasos:
Descomponga la matriz de pesos en múltiples matrices de un bit.
Calcule previamente el producto del vector de activación con todos los patrones de un bit posibles y almacene los resultados en una tabla de búsqueda.
Durante la inferencia, el resultado final de la multiplicación de matrices se obtiene rápidamente mediante operaciones de acumulación y índice de la tabla de búsqueda.
A través de pruebas en una variedad de dispositivos de vanguardia, T-MAC ha demostrado importantes ventajas de rendimiento. En comparación con la implementación existente de llama.cpp, T-MAC mejora el rendimiento 4 veces y reduce el consumo de energía en un 70%. Esto permite que incluso los dispositivos de gama baja, como la Raspberry Pi5, generen tokens más rápido que la velocidad de lectura promedio de un adulto.
T-MAC no sólo tiene ventajas teóricas, sino que también tiene potencial para aplicaciones prácticas. Ya sea realizando reconocimiento de voz en tiempo real y procesamiento del lenguaje natural en teléfonos inteligentes o brindando una experiencia interactiva más inteligente en dispositivos domésticos inteligentes, T-MAC puede desempeñar un papel importante.
La tecnología T-MAC proporciona una solución eficiente y que ahorra energía para la implementación de modelos de lenguaje grande de bits bajos en dispositivos perimetrales. No sólo puede mejorar el nivel de inteligencia del dispositivo, sino también brindar a los usuarios una experiencia inteligente más rica y conveniente. Con el continuo desarrollo y optimización de la tecnología, tenemos razones para creer que T-MAC desempeñará un papel cada vez más importante en el campo de la inteligencia de punta.
Dirección de código abierto: https://github.com/microsoft/T-MAC
Dirección del artículo: https://www.arxiv.org/pdf/2407.00088
La aparición de la tecnología T-MAC ha traído nuevos avances en el campo de la informática de punta. Su alta eficiencia y ahorro de energía hacen que tenga amplias perspectivas de aplicación en diversos dispositivos inteligentes. Creo que en el futuro, T-MAC mejorará aún más y contribuirá a construir un mundo más inteligente y conveniente.