Con el rápido desarrollo de la tecnología de inteligencia artificial, la importancia de los grandes modelos de idiomas (LLM) en aplicaciones empresariales se está volviendo cada vez más prominente. Sin embargo, cómo mejorar la precisión del conocimiento de estos modelos y reducir las alucinaciones que producen se ha convertido en un problema clave que debe resolverse con urgencia en el campo AI actual. En este contexto, el equipo de investigación de Meta AI propuso una solución innovadora: la "capa de memoria escalable", aportando nueva luz a este desafío.
El concepto de diseño de la capa de memoria escalable es bastante directo. Esta arquitectura es particularmente adecuada para escenarios de aplicación donde se requiere un conocimiento fáctico masivo mientras se mantiene una velocidad de inferencia eficiente, abriendo nuevas formas de mejorar el rendimiento de los modelos de idiomas.
Los modelos de lenguaje tradicionales a menudo usan "capas intensivas" para codificar información. Por el contrario, la capa de memoria adopta una activación escasa más eficiente y un mecanismo de búsqueda de valor clave, lo que permite la codificación y recuperación del conocimiento a un costo computacional más bajo. Aunque es ligeramente más alto que la capa densa en términos de uso de la memoria, solo necesita activar un pequeño número de parámetros, lo que mejora en gran medida la eficiencia informática.
Aunque el concepto de capa de memoria ha existido durante muchos años, su aplicación en las arquitecturas modernas de aprendizaje profundo es relativamente limitada, principalmente porque no ha podido adaptarse completamente a los aceleradores de hardware actuales. Vale la pena señalar que los LLM avanzados actualmente generalmente adoptan una arquitectura "híbrida experta", que tiene similitudes con la capa de memoria en algunos aspectos, y enfatiza la especialización de módulos específicos.
Para superar los desafíos de la capa de memoria en el uso de la memoria, el equipo de investigación de Meta ha realizado varias mejoras innovadoras. Diseñaron una arquitectura paralela para capas de memoria, lo que le permitió almacenar millones de pares de valor clave en múltiples GPU mientras mantiene el modelo funcionando a una velocidad. Además, el equipo ha desarrollado un núcleo CUDA especial para manejar operaciones de ancho de banda de alta memoria e introdujo un mecanismo de intercambio de parámetros, lo que permite que múltiples capas de memoria compartan el mismo conjunto de parámetros de memoria, optimizando aún más la eficiencia de utilización de recursos.
El equipo de investigación realizó una prueba integral del modelo de mejora de la memoria al reemplazar algunas capas densas con capas de memoria compartidas a través de la transformación del modelo LLAMA. Los resultados experimentales muestran que los modelos de memoria funcionan bien en múltiples tareas, especialmente en tareas que requieren conocimiento objetivo.
Esta investigación señala la dirección para el desarrollo de arquitecturas de IA de próxima generación. Los meta investigadores recomiendan integrar la integración de la capa de memoria en futuros sistemas de IA para reducir efectivamente los fenómenos de olvido y alucinación del modelo. Con el avance continuo de la tecnología, se espera que la capa de memoria escalable desempeñe un papel más importante en la mejora del rendimiento de los modelos de idiomas, lo que aporta cambios revolucionarios a la aplicación práctica de la tecnología de IA.