Avec le développement rapide de la technologie de l'intelligence artificielle, l'importance des grands modèles de langage (LLM) dans les applications d'entreprise devient de plus en plus importante. Cependant, comment améliorer la précision des connaissances de ces modèles et réduire les hallucinations qu'ils produisent est devenu un problème clé qui doit être résolu d'urgence dans le domaine de l'IA actuel. Dans ce contexte, l'équipe de recherche de Meta AI a proposé une solution innovante - la «couche de mémoire évolutive», apportant une nouvelle lumière à ce défi.
Le concept de conception de la couche de mémoire évolutive est assez tourné vers l'avant. Cette architecture est particulièrement adaptée aux scénarios d'application où des connaissances factuelles massives sont nécessaires tout en maintenant une vitesse d'inférence efficace, ouvrant de nouvelles façons d'améliorer les performances des modèles de langue.
Les modèles de langue traditionnels utilisent souvent des «couches intensives» pour coder des informations. En revanche, la couche de mémoire adopte un mécanisme de recherche plus efficace d'activation clairsemée et de valeur clé, ce qui permet le codage et la récupération des connaissances à un coût de calcul inférieur. Bien qu'il soit légèrement supérieur à la couche dense en termes d'utilisation de la mémoire, il n'a qu'à activer un petit nombre de paramètres, ce qui améliore considérablement l'efficacité informatique.
Bien que le concept de couche de mémoire existe depuis de nombreuses années, son application dans les architectures d'apprentissage en profondeur modernes est relativement limitée, principalement parce qu'elle n'a pas pu s'adapter pleinement aux accélérateurs matériels actuels. Il convient de noter que les LLM avancées adoptent généralement une architecture "hybride experte", qui présente des similitudes avec la couche de mémoire à certains égards, et met l'accent sur la spécialisation de modules spécifiques.
Pour surmonter les défis de la couche mémoire dans l'utilisation de la mémoire, l'équipe de recherche de Meta a apporté plusieurs améliorations innovantes. Ils ont conçu une architecture parallélisée pour les couches de mémoire, lui permettant de stocker des millions de paires de valeurs clés sur plusieurs GPU tout en gardant le modèle en marche à une vitesse. De plus, l'équipe a développé un noyau CUDA spécial pour gérer des opérations de bande passante de mémoire élevées et a introduit un mécanisme de partage de paramètres, permettant à plusieurs couches de mémoire de partager le même ensemble de paramètres de mémoire, en optimisant davantage l'efficacité de l'utilisation des ressources.
L'équipe de recherche a effectué un test complet du modèle d'amélioration de la mémoire en remplaçant certaines couches denses par des couches de mémoire partagées par la transformation du modèle LLAMA. Les résultats expérimentaux montrent que les modèles de mémoire fonctionnent bien dans plusieurs tâches, en particulier dans les tâches qui nécessitent des connaissances factuelles.
Cette recherche souligne la direction du développement des architectures d'IA de nouvelle génération. Les méta chercheurs recommandent fortement d'intégrer la couche de mémoire dans les futurs systèmes d'IA pour réduire efficacement les phénomènes d'oubli et d'hallucination du modèle. Avec l'avancement continu de la technologie, la couche de mémoire évolutive devrait jouer un rôle plus important dans l'amélioration des performances des modèles de langage, apportant des changements révolutionnaires à l'application pratique de la technologie d'IA.