Apple publicó recientemente un resultado de investigación que mejora significativamente la eficiencia de modelos de lenguaje grandes en dispositivos con memoria limitada. Esta investigación almacena inteligentemente los parámetros del modelo en la memoria flash y los carga en la DRAM cuando es necesario, resolviendo de manera efectiva el problema del cuello de botella de la memoria y logrando un gran salto en la velocidad de inferencia a través de una serie de estrategias de optimización. Este avance tecnológico allana el camino para la aplicación de grandes modelos de lenguaje en entornos con recursos limitados, como dispositivos móviles y sistemas integrados, y tiene una importancia práctica importante.
La última investigación de Apple señala que cuando la memoria del dispositivo es limitada, al almacenar los parámetros del modelo en la memoria flash y cargarlos en DRAM según demanda durante la inferencia, la eficiencia operativa de los modelos de lenguaje grandes se ha mejorado con éxito y la velocidad de inferencia se ha incrementado 25 veces. . Este método optimiza el modelo de costos de inferencia, reduce la cantidad de transmisión de datos e introduce estrategias de ventanas y tecnología de agrupación de filas y columnas, lo que permite ejecutar modelos dos veces más grandes que la capacidad DRAM disponible en dispositivos con capacidad de memoria limitada. En comparación con el método de carga ingenuo, la velocidad de inferencia de la CPU y la GPU aumenta de 4 a 5 veces y de 20 a 25 veces respectivamente. Al mismo tiempo, combina conciencia escasa, carga adaptativa al contexto y diseño orientado al hardware para facilitar la tarea. La inferencia de modelos de lenguaje grandes en dispositivos con memoria limitada brinda nuevas posibilidades. El documento detallado se puede encontrar [aquí](https://arxiv.org/pdf/2312.11514.pdf).El resultado de esta investigación no solo logra una mejora significativa en la velocidad, sino que, lo que es más importante, brinda la posibilidad de aplicar grandes modelos de lenguaje en una gama más amplia de dispositivos, lo que indica que la tecnología de inteligencia artificial será más popular y conveniente en el futuro. Esta innovación de Apple aporta una nueva dirección al desarrollo del campo de la IA.