Superbes documents LLM économes en ressources
Une liste organisée d'articles de haute qualité sur les LLM économes en ressources.
Il s'agit du référentiel GitHub de notre document d'enquête Beyond Efficiency : A Systematic Survey of Resource-Efficient Large Language Models.
Table des matières
- Superbes documents LLM économes en ressources
- Table des matières
- Conception d'architecture LLM
- Architecture de transformateur efficace
- Architecture sans transformateur
- Pré-formation LLM
- Efficacité de la mémoire
- Formation distribuée
- Entraînement de précision mixte
- Efficacité des données
- Importance de l'échantillonnage
- Augmentation des données
- Objectif de la formation
- Mise au point du LLM
- Réglage précis des paramètres
- Réglage précis de tous les paramètres
- Inférence LLM
- Compression du modèle
- Accélération dynamique
- Conception du système
- Optimisation du déploiement
- Infrastructure de soutien
- Autres systèmes
- Mesures et critères d'évaluation de l'efficacité des ressources
- ? Métriques de calcul
- ? Métriques de mémoire
- ⚡️ Mesures énergétiques
- ? Mesure du coût financier
- ? Métrique de communication réseau
- Autres mesures
- Repères
- Référence
Conception d'architecture LLM
Architecture de transformateur efficace
Date | Mots-clés | Papier | Lieu |
---|
2024 | Attention approximative | Des modèles de langage d'attention linéaire simples équilibrent le compromis rappel-débit | ArXiv |
2024 | Attention au matériel | MobileLLM : optimisation de modèles de langage de paramètres de moins d'un milliard pour les cas d'utilisation sur appareil | ArXiv |
2024 | Attention approximative | LoMA : attention à la mémoire compressée sans perte | ArXiv |
2024 | Attention approximative | Deux pierres frappent un oiseau : codage positionnel à deux niveaux pour une meilleure extrapolation de longueur | CIML |
2024 | Optimisation du matériel | FlashAttention-2 : une attention plus rapide avec un meilleur parallélisme et un meilleur partitionnement du travail | ICLR |
2023 | Optimisation du matériel | Flashattention : attention exacte rapide et économe en mémoire avec io-awareness | NeuroIPS |
2023 | Attention approximative | KDEformer : accélération des transformateurs via l'estimation de la densité du noyau | CIML |
2023 | Attention approximative | Mega : Attention fermée équipée d'une moyenne mobile | ICLR |
2022 | Optimisation du matériel | xFormers - Boîte à outils pour accélérer la recherche sur les transformateurs | GitHub |
2021 | Attention approximative | Attention efficace : attention avec des complexités linéaires | WACV |
2021 | Attention approximative | Un transformateur sans attention | ArXiv |
2021 | Attention approximative | L'attention personnelle n'a pas besoin de mémoire O(n^2) | ArXiv |
2021 | Optimisation du matériel | LightSeq : une bibliothèque d'inférence haute performance pour les transformateurs | NAACL |
2021 | Optimisation du matériel | FasterTransformer : un cadre de transformation plus rapide | GitHub |
2020 | Attention approximative | Les transformateurs sont des RNN : transformateurs autorégressifs rapides avec attention linéaire | CIML |
2019 | Attention approximative | Reformer : Le transformateur efficace | ICLR |
Architecture sans transformateur
Date | Mots-clés | Papier | Lieu |
---|
2024 | Décodeur | Vous ne mettez en cache qu'une seule fois : architectures décodeur-décodeur pour les modèles de langage | ArXiv |
2024 | Couche BitLinear | Modélisation de langage évolutive sans MatMul | ArXiv |
2023 | RNN LM | RWKV : réinventer les RNN pour l'ère des transformateurs | Résultats de l'EMNLP |
2023 | MLP | Les prédicteurs auto-régressifs du prochain jeton sont des apprenants universels | ArXiv |
2023 | LM convolutif | Hiérarchie des Hyènes : vers des modèles de langage convolutif plus larges | CIML |
2023 | Matrices sous-quadratiques basées | Monarch Mixer : une architecture simple basée sur GEMM sous-quadratique | NeuroIPS |
2023 | Modèle spatial d’état sélectif | Mamba : modélisation de séquences temporelles linéaires avec des espaces d'états sélectifs | ArXiv |
2022 | Mélange d'experts | Transformateurs de commutation : évolutivité vers des modèles de milliards de paramètres avec une parcimonie simple et efficace | JMLR |
2022 | Mélange d'experts | GLaM : mise à l'échelle efficace des modèles de langage avec un mélange d'experts | CIML |
2022 | Mélange d'experts | Mélange d'experts avec routage Expert Choice | NeuroIPS |
2022 | Mélange d'experts | Modélisation linguistique efficace à grande échelle avec des mélanges d'experts | EMNLP |
2017 | Mélange d'experts | Réseaux de neurones incroyablement grands : la couche de mélange d'experts à grille clairsemée | ICLR |
Pré-formation LLM
Efficacité de la mémoire
Formation distribuée
Date | Mots-clés | Papier | Lieu |
---|
2024 | Parallélisme des modèles | ProTrain : formation LLM efficace via la gestion adaptative de la mémoire | Arxiv |
2024 | Parallélisme des modèles | MegaScale : étendre la formation sur des modèles de langage étendus à plus de 10 000 GPU | Arxiv |
2023 | Parallélisme des données | Palm : faire évoluer la modélisation du langage avec des parcours | GitHub |
2023 | Parallélisme des modèles | Bpipe : parallélisme de pipeline à mémoire équilibrée pour la formation de grands modèles de langage | JMLR |
2022 | Parallélisme des modèles | Alpa : automatisation du parallélisme inter et intra-opérateur pour le Deep Learning distribué | OSDI |
2021 | Parallélisme des données | FairScale : une bibliothèque PyTorch modulaire à usage général pour une formation haute performance et à grande échelle | JMLR |
2020 | Parallélisme des données | Zéro : optimisations de la mémoire pour former des modèles de paramètres de mille milliards | IEEE SC20 |
2019 | Parallélisme des modèles | GPipe : formation efficace de réseaux de neurones géants utilisant le parallélisme de pipeline | NeuroIPS |
2019 | Parallélisme des modèles | Megatron-LM : formation de modèles de langage de paramètres de plusieurs milliards à l'aide du parallélisme de modèles | Arxiv |
2019 | Parallélisme des modèles | PipeDream : parallélisme de pipeline généralisé pour la formation DNN | SOSP |
2018 | Parallélisme des modèles | Mesh-tensorflow : apprentissage profond pour les supercalculateurs | NeuroIPS |
Entraînement de précision mixte
Date | Mots-clés | Papier | Lieu |
---|
2022 | Formation de précision mixte | BLOOM : un modèle de langage multilingue en libre accès à 176 B paramètres | Arxiv |
2018 | Formation de précision mixte | Bert : Pré-formation de transformateurs bidirectionnels profonds pour la compréhension du langage | Liste de contrôle d'accès |
2017 | Formation de précision mixte | Formation de précision mixte | ICLR |
Efficacité des données
Importance de l'échantillonnage
Date | Mots-clés | Papier | Lieu |
---|
2024 | Échantillonnage important | LISA : échantillonnage d'importance par couche pour un réglage fin d'un modèle de langage étendu économe en mémoire | Arxiv |
2023 | Enquête sur l'échantillonnage d'importance | Une enquête sur la formation efficace des transformateurs | IJCAI |
2023 | Échantillonnage important | Data-Juicer : un système de traitement de données unique pour les grands modèles de langage | Arxiv |
2023 | Échantillonnage important | INGENIOUS : Utilisation de sous-ensembles de données informatifs pour une pré-formation efficace des modèles de langage | EMNLP |
2023 | Échantillonnage important | Champs de force de l'apprentissage automatique avec formation tenant compte du coût des données | CIML |
2022 | Échantillonnage important | Au-delà des lois de mise à l'échelle neuronale : vaincre la mise à l'échelle des lois de puissance via l'élagage des données | NeuroIPS |
2021 | Échantillonnage important | Deep Learning à la diète de données : trouver des exemples importants dès le début de la formation | NeuroIPS |
2018 | Échantillonnage important | Entraîner des modèles approfondis plus rapidement grâce à un échantillonnage robuste et d'importance approximative | NeuroIPS |
2018 | Échantillonnage important | Tous les échantillons ne sont pas créés égaux : apprentissage profond avec échantillonnage important | CIML |
Augmentation des données
Date | Mots-clés | Papier | Lieu |
---|
2024 | Augmentation des données | LLMRec : grands modèles de langage avec augmentation de graphiques pour recommandation | WSDM |
2024 | Augmentation des données | LLM-DA : Augmentation des données via de grands modèles de langage pour la reconnaissance d'entités nommées en quelques étapes | Arxiv |
2023 | Augmentation des données | MixGen : une nouvelle augmentation de données multimodale | WACV |
2023 | Augmentation des données | Auto-supervision prenant en compte l'augmentation pour une formation GAN efficace en matière de données | NeuroIPS |
2023 | Augmentation des données | Améliorer le traitement vocal de bout en bout grâce à une utilisation efficace des données textuelles avec la synthèse latente | EMNLP |
2023 | Augmentation des données | FaMeSumm : enquêter et améliorer la fidélité des résumés médicaux | EMNLP |
Objectif de la formation
Date | Mots-clés | Papier | Lieu |
---|
2023 | Objectif de la formation | Défis et applications des grands modèles de langage | Arxiv |
2023 | Objectif de la formation | Apprentissage efficace des données pour l'extraction ouverte d'informations avec des modèles linguistiques pré-entraînés | EMNLP |
2023 | Modélisation d'image-langage masqué | Mise à l'échelle de la pré-formation langage-image via le masquage | CVPR |
2022 | Modélisation d'images masquées | Les auto-encodeurs masqués sont des apprenants de vision évolutifs | CVPR |
2019 | Modélisation du langage masqué | MASS : pré-formation séquence à séquence masquée pour la génération de langage | CIML |
Mise au point du LLM
Réglage précis des paramètres
Date | Mots-clés | Papier | Lieu |
---|
2024 | Réglage fin basé sur LoRA | Dlora : solution de réglage fin distribuée et efficace en termes de paramètres pour un grand modèle de langage | Arxiv |
2024 | Réglage fin basé sur LoRA | SplitLoRA : un cadre de réglage fin efficace en termes de paramètres divisés pour les grands modèles de langage | Arxiv |
2024 | Réglage fin basé sur LoRA | Ajustement efficace des données pour les recommandations basées sur LLM | SIGIR |
2024 | Réglage fin basé sur LoRA | MEFT : réglage fin économe en mémoire grâce à un adaptateur clairsemé | Liste de contrôle d'accès |
2023 | Réglage fin basé sur LoRA | DyLoRA : réglage efficace des paramètres de modèles pré-entraînés à l'aide d'une adaptation de bas rang sans recherche dynamique | EACL |
2022 | Ajustement précis basé sur le masquage | Affiner efficacement les modèles de langage pré-entraînés en optimisant les sous-réseaux de manière adaptative | NeuroIPS |
2021 | Ajustement précis basé sur le masquage | BitFit : réglage fin simple et efficace des paramètres pour les modèles de langage masqué basés sur des transformateurs | Liste de contrôle d'accès |
2021 | Ajustement précis basé sur le masquage | Élever un enfant dans un grand modèle linguistique : vers un réglage fin efficace et généralisable | EMNLP |
2021 | Ajustement précis basé sur le masquage | Désapprendre les biais dans les modèles de langage en partitionnant les gradients | Liste de contrôle d'accès |
2019 | Ajustement précis basé sur le masquage | SMART : réglage fin robuste et efficace pour les modèles de langage naturel pré-entraînés grâce à une optimisation régularisée fondée sur des principes | Liste de contrôle d'accès |
Réglage précis de tous les paramètres
Date | Mots-clés | Papier | Lieu |
---|
2024 | Ajustement complet des paramètres | Hift : une stratégie hiérarchique de réglage fin des paramètres complets | Arxiv |
2024 | Etude des optimisations de réglage fin de tous les paramètres | Une étude des optimisations pour affiner les grands modèles de langage | Arxiv |
2023 | Étude comparative entre le réglage fin des paramètres complets et celui de la base LoRA | Une étude comparative entre le réglage fin des paramètres complets et basé sur LoRA sur les données d'instruction chinoises pour l'enseignement suivant un grand modèle linguistique | Arxiv |
2023 | Étude comparative entre le réglage fin de tous les paramètres et celui efficace des paramètres | Comparaison entre les techniques efficaces en termes de paramètres et la mise au point complète : une étude de cas sur la classification des articles de presse multilingues | Arxiv |
2023 | Ajustement complet des paramètres avec des ressources limitées | Ajustement complet des paramètres pour les grands modèles de langage avec des ressources limitées | Arxiv |
2023 | Réglage fin économe en mémoire | Affiner les modèles linguistiques avec les passes Just Forward | NeuroIPS |
2023 | Ajustement complet des paramètres pour les applications médicales | PMC-LLaMA : Vers la création de modèles linguistiques open source pour la médecine | Arxiv |
2022 | Inconvénient du réglage fin de tous les paramètres | Un réglage fin peut déformer les fonctionnalités pré-entraînées et sous-performer hors distribution | ICLR |
Inférence LLM
Compression du modèle
Taille
Date | Mots-clés | Papier | Lieu |
---|
2024 | Taille non structurée | SparseLLM : vers un élagage global des modèles linguistiques pré-entraînés | NeuroIPS |
2024 | Taille structurée | Perplexe face à la perplexité : élagage des données basé sur la perplexité avec de petits modèles de référence | Arxiv |
2024 | Taille structurée | BESA : Élagage de modèles de langage volumineux avec une allocation de parcimonie efficace par blocs et par paramètres | Arxiv |
2024 | Taille structurée | ShortGPT : les couches des grands modèles de langage sont plus redondantes que prévu | Arxiv |
2024 | Taille structurée | NutePrune : élagage progressif efficace avec de nombreux enseignants pour les grands modèles de langage | Arxiv |
2024 | Taille structurée | SliceGPT : compresser les grands modèles de langage en supprimant des lignes et des colonnes | ICLR |
2024 | Taille non structurée | Dynamic Sparse No Training : réglage fin sans formation pour les LLM clairsemés | ICLR |
2024 | Taille structurée | Plug-and-Play : une méthode d'élagage post-formation efficace pour les grands modèles de langage | ICLR |
2023 | Taille non structurée | Élagage de parcimonie mixte tenant compte de la sensibilité en une seule fois pour les modèles de langage volumineux | Arxiv |
2023 | Taille non structurée | SparseGPT : des modèles de langage massifs peuvent être élagués avec précision en une seule fois | CIML |
2023 | Taille non structurée | Une approche d'élagage simple et efficace pour les grands modèles de langage | ICLR |
2023 | Taille non structurée | AccelTran : un accélérateur sensible à la parcimonie pour l'inférence dynamique avec des transformateurs | TCAD |
2023 | Taille structurée | LLM-Pruner : sur l'élagage structurel des grands modèles de langage | NeuroIPS |
2023 | Taille structurée | LoSparse : compression structurée de grands modèles de langage basée sur une approximation de bas rang et clairsemée | CIML |
2023 | Taille structurée | Élagage structuré pour des modèles linguistiques génératifs pré-entraînés efficaces | Liste de contrôle d'accès |
2023 | Taille structurée | ZipLM : élagage structuré des modèles de langage basé sur l'inférence | NeuroIPS |
2023 | Élagage contextuel | Déjà vu : parcimonie contextuelle pour des LLM efficaces au moment de l'inférence | CIML |
Quantification
Date | Mots-clés | Papier | Lieu |
---|
2024 | Quantification du poids | Évaluation de grands modèles de langage quantifiés | Arxiv |
2024 | Quantification du poids | I-LLM : inférence efficace basée sur des nombres entiers uniquement pour des modèles de langage volumineux à faibles bits entièrement quantifiés | Arxiv |
2024 | Quantification du poids | ABQ-LLM : accélération d'inférence quantifiée par bits arbitraires pour les grands modèles de langage | Arxiv |
2024 | Co-quantification par activation du poids | Rotation et permutation pour une gestion avancée des valeurs aberrantes et une quantification efficace des LLM | NeuroIPS |
2024 | Quantification du poids | OmniQuant : quantification calibrée de manière omnidirectionnelle pour les grands modèles de langage | ICLR |
2023 | Quantification du poids | Flexround : arrondi apprenable basé sur la division par éléments pour la quantification post-entraînement | CIML |
2023 | Quantification du poids | Suppression des valeurs aberrantes + : quantification précise de grands modèles de langage par déplacement et mise à l'échelle équivalents et optimaux | EMNLP |
2023 | Quantification du poids | OWQ : quantification de poids tenant compte des valeurs aberrantes pour un réglage fin et une inférence efficaces de grands modèles de langage | AAAI |
2023 | Quantification du poids | Gptq : quantification post-entraînement précise pour les transformateurs génératifs pré-entraînés | ICLR |
2023 | Quantification du poids | Quantification dynamique de stockage pour une formation efficace des transformateurs | EMNLP |
2023 | Quantification du poids | Formation de transformateurs prenant en compte la quantification et compressée par tenseur pour la compréhension du langage naturel | Interdiscours |
2023 | Quantification du poids | QLoRA : réglage fin efficace des LLM quantifiés | NeuroIPS |
2023 | Quantification du poids | Formation stable et de faible précision pour les modèles de langage de vision à grande échelle | NeuroIPS |
2023 | Quantification du poids | Prequant : une approche de quantification indépendante des tâches pour les modèles de langage pré-entraînés | Liste de contrôle d'accès |
2023 | Quantification du poids | Olive : accélération des grands modèles de langage via une quantification matérielle des paires de victimes aberrantes | ISCA |
2023 | Quantification du poids | Awq : quantification du poids prenant en compte l'activation pour la compression et l'accélération LLM | arXiv |
2023 | Quantification du poids | Spqr : une représentation clairsemée pour une compression de poids LLM presque sans perte | arXiv |
2023 | Quantification du poids | SqueezeLLM : quantification dense et clairsemée | arXiv |
2023 | Quantification du poids | LLM-QAT : formation basée sur la quantification sans données pour les grands modèles de langage | arXiv |
2022 | Quantification d'activation | Gact : Formation compressée d’activation pour les architectures réseau génériques | CIML |
2022 | Quantification en virgule fixe | Boostez Vision Transformer avec une parcimonie et une quantification adaptées aux GPU | Liste de contrôle d'accès |
2021 | Quantification d'activation | Ac-gc : compression d'activation avec perte avec convergence garantie | NeuroIPS |
Accélération dynamique
Élagage d'entrée
Date | Mots-clés | Papier | Lieu |
---|
2024 | Suppression des jetons basée sur le score | Taille structurée adaptative rapide pour une génération efficace de LLM | COLM |
2024 | Suppression des jetons basée sur le score | LazyLLM : élagage dynamique des jetons pour une inférence LLM à contexte long efficace | Arxiv |
2024 | Suppression des jetons basée sur l'apprentissage | LLMLingua-2 : distillation de données pour une compression d'invite efficace et fidèle, indépendante des tâches | Liste de contrôle d'accès |
2024 | Suppression des jetons basée sur l'apprentissage | Mémoire de contexte compressée pour l'interaction du modèle de langage en ligne | ICLR |
2023 | Suppression des jetons basée sur le score | Élagage des jetons prenant en compte les contraintes et distillé par classement pour une inférence de transformateur efficace | KDD |
2023 | Suppression des jetons basée sur l'apprentissage | PuMer : élagage et fusion de jetons pour des modèles de langage de vision efficaces | Liste de contrôle d'accès |
2023 | Suppression des jetons basée sur l'apprentissage | Infor-Coef : sous-échantillonnage dynamique de jetons basé sur les goulots d'étranglement des informations pour un modèle de langage compact et efficace | arXiv |
2023 | Suppression des jetons basée sur l'apprentissage | SmartTrim : élagage adaptatif des jetons et des paramètres pour des modèles vision-langage efficaces | arXiv |
2022 | Suppression des jetons basée sur l'apprentissage | Transkimmer : Transformer apprend à survoler par couches | Liste de contrôle d'accès |
2022 | Suppression des jetons basée sur le score | Élagage de jetons appris pour les transformateurs | KDD |
2021 | Suppression des jetons basée sur l'apprentissage | TR-BERT : réduction dynamique des jetons pour accélérer l'inférence BERT | NAACL |
2021 | Suppression des jetons basée sur le score | Architecture d'attention clairsemée efficace avec jeton en cascade et élagage de la tête | HPCA |
Conception du système
Optimisation du déploiement
Date | Mots-clés | Papier | Lieu |
---|
2024 | Optimisation du matériel | LUT TENSOR CORE : la table de recherche permet une accélération efficace de l'inférence LLM à faible bit | Arxiv |
2023 | Déchargement de matériel | FlexGen : inférence générative à haut débit de grands modèles de langage avec un seul GPU | PMLR |
2023 | Déchargement de matériel | Inférence distribuée rapide au service de grands modèles de langage | arXiv |
2022 | Inférence collaborative | Pétales : inférence collaborative et réglage fin de grands modèles | arXiv |
2022 | Déchargement de matériel | Inférence DeepSpeed : permettre une inférence efficace de modèles de transformateurs à une échelle sans précédent | IEEESC22 |
Infrastructure de soutien
Date | Mots-clés | Papier | Lieu |
---|
2024 | Appareils de périphérie | MobileLLM : optimisation de modèles de langage de paramètres de moins d'un milliard pour les cas d'utilisation sur appareil | CIML |
2024 | Appareils de périphérie | EdgeShard : inférence LLM efficace via le Edge Computing collaboratif | Arxiv |
2024 | Appareils de périphérie | LLM de toute précision : déploiement à faible coût de plusieurs LLM de différentes tailles | CIML |
2024 | Appareils de périphérie | Les solutions de mémoire révolutionnaires pour des performances améliorées sur l'inférence LLM | Micro IEEE |
2024 | Appareils de périphérie | Point de fusion : évaluation mobile des transformateurs de langage | MobiCom |
2024 | Appareils de périphérie | LLM en tant que service système sur les appareils mobiles | Arxiv |
2024 | Appareils de périphérie | LocMoE : un MoE à faibles coûts pour la formation sur de grands modèles linguistiques | Arxiv |
2024 | Appareils de périphérie | Jetmoe : Atteindre la performance de Llama2 avec 0,1 million de dollars | Arxiv |
2023 | Appareils de périphérie | Formation de modèles de langage neuronal à large vocabulaire par apprentissage fédéré privé pour les appareils aux ressources limitées | ICASSP |
2023 | Appareils de périphérie | Mise au point fédérée des LLM à la pointe de la technologie : le bon, la brute, le truand | arXiv |
2023 | Bibliothèques | Colossal-AI : un système d'apprentissage profond unifié pour la formation parallèle à grande échelle | CIPP |
2023 | Bibliothèques | GPT-NeoX-20B : un modèle de langage autorégressif open source | Liste de contrôle d'accès |
2023 | Appareils de périphérie | De grands modèles linguistiques ont permis l'IA autonome de pointe pour l'intelligence connectée | arXiv |
2022 | Bibliothèques | Inférence DeepSpeed : permettre une inférence efficace de modèles de transformateurs à une échelle sans précédent | IEEE SC22 |
2022 | Bibliothèques | Alpa : automatisation du parallélisme inter et intra-opérateur pour le Deep Learning distribué | OSDI |
2022 | Appareils de périphérie | EdgeFormer : un transformateur efficace en termes de paramètres pour la génération Seq2seq sur l'appareil | arXiv |
2022 | Appareils de périphérie | ProFormer : vers des transformateurs basés sur la projection LSH sur appareil | Liste de contrôle d'accès |
2021 | Appareils de périphérie | Générez plus de fonctionnalités avec des opérations bon marché pour BERT | Liste de contrôle d'accès |
2021 | Appareils de périphérie | SqueezeBERT : Qu'est-ce que la vision par ordinateur peut enseigner à la PNL sur les réseaux neuronaux efficaces ? | Soutenir la PNL |
2020 | Appareils de périphérie | Transformateur Lite avec attention longue-courte portée | arXiv |
2019 | Bibliothèques | Megatron-LM : formation de modèles de langage de paramètres de plusieurs milliards à l'aide du parallélisme de modèles | IEEE SC22 |
2018 | Bibliothèques | Mesh-TensorFlow : apprentissage profond pour les supercalculateurs | NeuroIPS |
Autres systèmes
Date | Mots-clés | Papier | Lieu |
---|
2023 | Autres systèmes | Tabi : un système d'inférence multi-niveaux efficace pour les grands modèles de langage | EuroSys |
2023 | Autres systèmes | Recherche de séquences quasi-dupliquées à grande échelle pour l'évaluation de la mémorisation de grands modèles de langage | PACMMOD |
Mesures et critères d'évaluation de l'efficacité des ressources
? Métriques de calcul
Métrique | Description | Exemple d'utilisation |
---|
FLOP (opérations à virgule flottante) | le nombre d'opérations arithmétiques sur les nombres à virgule flottante | [FLOPS] |
Temps de formation | la durée totale requise pour l'entraînement, généralement mesurée en minutes, heures ou jours d'horloge murale | [minutes, jours] [heures] |
Temps d'inférence/latence | le temps moyen requis pour générer une sortie après avoir reçu une entrée, généralement mesuré en temps d'horloge murale ou en temps d'horloge CPU/GPU/TPU en millisecondes ou secondes | [latence de bout en bout en secondes] [latence de la prochaine génération de jeton en millisecondes] |
Débit | le taux de génération de jetons de sortie ou d'achèvement des tâches, généralement mesuré en jetons par seconde (TPS) ou en requêtes par seconde (QPS) | [jetons/s] [requêtes/s] |
Rapport d'accélération | l'amélioration de la vitesse d'inférence par rapport à un modèle de base | [accélération du temps d'inférence] [accélération du débit] |
? Métriques de mémoire
Métrique | Description | Exemple d'utilisation |
---|
Nombre de paramètres | le nombre de variables ajustables dans le réseau neuronal du LLM | [nombre de paramètres] |
Taille du modèle | l'espace de stockage nécessaire au stockage de l'ensemble du modèle | [utilisation maximale de la mémoire en Go] |
⚡️ Mesures énergétiques
Métrique | Description | Exemple d'utilisation |
---|
Consommation d'énergie | l'énergie électrique utilisée pendant le cycle de vie du LLM | [kWh] |
Émission de carbone | les émissions de gaz à effet de serre associées à la consommation énergétique du modèle | [kgCO2éq] |
Les logiciels suivants sont disponibles, conçus pour le suivi en temps réel de la consommation d'énergie et des émissions de carbone.
- CodeCarbone
- Traqueur de carbone
- suivi de l'impact des expériences
Les éléments suivants peuvent également vous être utiles pour prédire la consommation d'énergie et l'empreinte carbone avant un entraînement réel ou
? Mesure du coût financier
Métrique | Description | Exemple d'utilisation |
---|
Dollars par paramètre | le coût total de formation (ou d'exécution) du LLM par le nombre de paramètres | |
? Métrique de communication réseau
Métrique | Description | Exemple d'utilisation |
---|
Volume de communication | la quantité totale de données transmises à travers le réseau au cours d'une exécution LLM ou d'une formation spécifique | [volume de communication en To] |
Autres mesures
Métrique | Description | Exemple d'utilisation |
---|
Taux de compression | la réduction de la taille du modèle compressé par rapport au modèle original | [taux de compression] [pourcentage de poids restants] |
Fidélité/fidélité | la ressemblance entre les modèles d'enseignant et d'élève en termes de cohérence des prédictions et d'alignement des distributions de probabilités prédites | [loyauté] [fidélité] |
Robustesse | la résistance aux attaques contradictoires, où de légères modifications d'entrée peuvent potentiellement manipuler la sortie du modèle | [précision après attaque, numéro de requête] |
Optimalité de Pareto | les compromis optimaux entre divers facteurs concurrents | [Frontière de Pareto (coût et précision)] [Frontière de Pareto (performances et FLOP)] |
Repères
Référence | Description | Papier |
---|
Benchmarks généraux en PNL | une vaste collection de benchmarks généraux en PNL tels que GLUE, SuperGLUE, WMT et SQuAD, etc. | Un aperçu complet des grands modèles de langage |
Dynaboard | une plateforme open source pour évaluer les modèles PNL dans le cloud, offrant une interaction en temps réel et une évaluation holistique de la qualité des modèles avec Dynascore personnalisable | Dynaboard : une plateforme d'évaluation en tant que service pour une analyse comparative holistique de nouvelle génération |
Assurance qualité efficace | un défi de réponse aux questions (QA) en domaine ouvert à NeurIPS 2020 qui se concentre sur la création de systèmes d'assurance qualité précis et économes en mémoire | Concours NeurIPS 2020 EfficientQA : systèmes, analyses et leçons apprises |
Tâche partagée SustaiNLP 2020 | un défi pour le développement de modèles NLP économes en énergie en évaluant leurs performances sur huit tâches NLU à l'aide des métriques SuperGLUE et en évaluant leur consommation d'énergie pendant l'inférence | Aperçu de la tâche partagée SustaiNLP 2020 |
ELUE (Évaluation efficace de la compréhension du langage) | une plate-forme de référence pour évaluer l'efficacité du modèle NLP sur diverses tâches, offrant des métriques en ligne et ne nécessitant qu'un fichier de définition de modèle Python pour la soumission | Vers une PNL efficace : une évaluation standard et une base de référence solide |
VLUE (Évaluation de la compréhension vision-langage) | une référence complète pour évaluer les modèles de langage de vision sur plusieurs tâches, offrant une plate-forme en ligne pour l'évaluation et la comparaison | VLUE : une référence multitâche pour évaluer les modèles vision-langage |
Arène à longue portée (LAG) | une suite de référence évaluant des modèles Transformer efficaces sur des tâches à contexte long, couvrant diverses modalités et types de raisonnement tout en permettant des évaluations sous des contraintes de ressources contrôlées, mettant en évidence l'efficacité du monde réel | Long Range Arena : une référence pour les transformateurs efficaces |
MS MARCO soucieux de l'efficacité | une référence améliorée de recherche d'informations MS MARCO qui intègre des mesures d'efficacité telles que la latence et le coût par requête ainsi que la précision, facilitant une évaluation complète des systèmes IR | Aller au-delà de la précision des tâches en aval pour l'analyse comparative de la recherche d'informations |
Référence
Si vous trouvez cette liste papier utile dans votre recherche, pensez à citer :
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}