Apple a récemment publié un résultat de recherche qui améliore considérablement l'efficacité des grands modèles de langage sur les appareils à mémoire limitée. Cette recherche stocke intelligemment les paramètres du modèle dans la mémoire flash et les charge dans la DRAM à la demande lorsque cela est nécessaire, résolvant ainsi efficacement le problème de goulot d'étranglement de la mémoire et réalisant un énorme bond en avant dans la vitesse d'inférence grâce à une série de stratégies d'optimisation. Cette avancée technologique ouvre la voie à l’application de grands modèles de langage dans des environnements aux ressources limitées tels que les appareils mobiles et les systèmes embarqués, et revêt une importance pratique importante.
Les dernières recherches d'Apple soulignent que lorsque la mémoire de l'appareil est limitée, en stockant les paramètres du modèle dans la mémoire flash et en les chargeant dans la DRAM à la demande pendant l'inférence, l'efficacité opérationnelle des grands modèles de langage a été améliorée avec succès et la vitesse d'inférence a augmenté de 25 fois. . Cette méthode optimise le modèle de coût d'inférence, réduit la quantité de transmission de données et introduit des stratégies de fenêtrage et une technologie de regroupement ligne-colonne, permettant d'exécuter des modèles deux fois plus grands que la capacité DRAM disponible sur des appareils avec une capacité de mémoire limitée. Par rapport à la méthode de chargement naïf, la vitesse d'inférence du CPU et du GPU est augmentée respectivement de 4 à 5 fois et de 20 à 25 fois, en même temps, elle combine une conscience clairsemée, un chargement adaptatif au contexte et une conception orientée matériel pour faciliter le chargement. inférence de grands modèles de langage sur des appareils avec une mémoire limitée Apportez de nouvelles possibilités. Le document détaillé peut être trouvé [ici](https://arxiv.org/pdf/2312.11514.pdf).Ce résultat de recherche permet non seulement d’améliorer considérablement la vitesse, mais, plus important encore, offre la possibilité d’appliquer de grands modèles de langage sur une plus large gamme d’appareils, ce qui indique que la technologie de l’IA sera plus populaire et plus pratique à l’avenir. Cette innovation d'Apple apporte une nouvelle direction au développement du domaine de l'IA.