Fantastische ressourceneffiziente LLM-Papiere
Eine kuratierte Liste hochwertiger Artikel zu ressourceneffizienten LLMs.
Dies ist das GitHub-Repo für unser Umfragepapier „Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models“.
Inhaltsverzeichnis
- Fantastische ressourceneffiziente LLM-Papiere
- Inhaltsverzeichnis
- LLM-Architekturdesign
- Effiziente Transformatorarchitektur
- Nicht transformatorische Architektur
- LLM-Vorschulung
- Gedächtniseffizienz
- Verteiltes Training
- Gemischtes Präzisionstraining
- Dateneffizienz
- Wichtigkeitsstichprobe
- Datenerweiterung
- Trainingsziel
- LLM-Feinabstimmung
- Parametereffiziente Feinabstimmung
- Vollständige Parameter-Feinabstimmung
- LLM-Inferenz
- Modellkomprimierung
- Beschneidung
- Quantisierung
- Dynamische Beschleunigung
- Systemdesign
- Bereitstellungsoptimierung
- Support-Infrastruktur
- Andere Systeme
- Metriken und Benchmarks zur Bewertung der Ressourceneffizienz
- ? Berechnungsmetriken
- ? Speichermetriken
- ⚡️ Energiemetriken
- ? Finanzielle Kostenmetrik
- ? Netzwerkkommunikationsmetrik
- Andere Metriken
- Benchmarks
- Referenz
LLM-Architekturdesign
Effiziente Transformatorarchitektur
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Ungefähre Aufmerksamkeit | Einfache lineare Aufmerksamkeitssprachmodelle gleichen den Kompromiss zwischen Erinnerung und Durchsatz aus | ArXiv |
2024 | Hardware-Achtung | MobileLLM: Optimierung von Submilliarden-Parametersprachenmodellen für Anwendungsfälle auf dem Gerät | ArXiv |
2024 | Ungefähre Aufmerksamkeit | LoMA: Verlustfreier komprimierter Speicher Achtung | ArXiv |
2024 | Ungefähre Aufmerksamkeit | Zwei Steine schlagen einen Vogel: Bilevel-Positionskodierung für bessere Längenextrapolation | ICML |
2024 | Hardwareoptimierung | FlashAttention-2: Schnellere Aufmerksamkeit durch bessere Parallelität und Arbeitspartitionierung | ICLR |
2023 | Hardwareoptimierung | Flashattention: Schnelle und speichereffiziente exakte Aufmerksamkeit mit io-awareness | NeurIPS |
2023 | Ungefähre Aufmerksamkeit | KDEformer: Transformatoren durch Kernel-Dichteschätzung beschleunigen | ICML |
2023 | Ungefähre Aufmerksamkeit | Mega: Mit gleitendem Durchschnitt ausgestattete Gated Attention | ICLR |
2022 | Hardwareoptimierung | xFormers – Toolbox zur Beschleunigung der Forschung zu Transformatoren | GitHub |
2021 | Ungefähre Aufmerksamkeit | Effiziente Aufmerksamkeit: Aufmerksamkeit mit linearer Komplexität | WACV |
2021 | Ungefähre Aufmerksamkeit | Ein aufmerksamkeitsfreier Transformator | ArXiv |
2021 | Ungefähre Aufmerksamkeit | Selbstaufmerksamkeit benötigt kein O(n^2)-Gedächtnis | ArXiv |
2021 | Hardwareoptimierung | LightSeq: Eine leistungsstarke Inferenzbibliothek für Transformatoren | NAACL |
2021 | Hardwareoptimierung | FasterTransformer: Ein schnelleres Transformer-Framework | GitHub |
2020 | Ungefähre Aufmerksamkeit | Transformatoren sind RNNs: Schnelle autoregressive Transformatoren mit linearer Aufmerksamkeit | ICML |
2019 | Ungefähre Aufmerksamkeit | Reformer: Der effiziente Transformator | ICLR |
Nicht transformatorische Architektur
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Decoder | Sie zwischenspeichern nur einmal: Decoder-Decoder-Architekturen für Sprachmodelle | ArXiv |
2024 | BitLinear-Ebene | Skalierbare MatMul-freie Sprachmodellierung | ArXiv |
2023 | RNN LM | RWKV: RNNs für die Transformer-Ära neu erfinden | EMNLP-Ergebnisse |
2023 | MLP | Autoregressive Next-Token-Prädiktoren sind universelle Lernende | ArXiv |
2023 | Faltungs-LM | Hyänenhierarchie: Auf dem Weg zu größeren Faltungssprachenmodellen | ICML |
2023 | Basierend auf subquadratischen Matrizen | Monarch Mixer: Eine einfache subquadratische GEMM-basierte Architektur | NeurIPS |
2023 | Selektives Zustandsraummodell | Mamba: Linearzeitsequenzmodellierung mit selektiven Zustandsräumen | ArXiv |
2022 | Mischung aus Experten | Schalttransformatoren: Skalierung auf Billionen-Parametermodelle mit einfacher und effizienter Sparsity | JMLR |
2022 | Mischung aus Experten | GLaM: Effiziente Skalierung von Sprachmodellen mit Expertenmix | ICML |
2022 | Mischung aus Experten | Expertenmix mit Expert Choice Routing | NeurIPS |
2022 | Mischung aus Experten | Effiziente Sprachmodellierung im großen Maßstab mit Expertenmischungen | EMNLP |
2017 | Mischung aus Experten | Unverschämt große neuronale Netze: Die spärlich begrenzte Expertenmischungsschicht | ICLR |
LLM-Vorschulung
Gedächtniseffizienz
Verteiltes Training
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Modellparallelität | ProTrain: Effizientes LLM-Training durch adaptives Gedächtnismanagement | Arxiv |
2024 | Modellparallelität | MegaScale: Skalierung des Trainings großer Sprachmodelle auf mehr als 10.000 GPUs | Arxiv |
2023 | Datenparallelität | Palm: Skalierung der Sprachmodellierung mit Pfaden | Github |
2023 | Modellparallelität | Bpipe: Speicherbalancierte Pipeline-Parallelität zum Trainieren großer Sprachmodelle | JMLR |
2022 | Modellparallelität | Alpa: Automatisierung der Inter- und Intra-Operator-Parallelität für verteiltes Deep Learning | OSDI |
2021 | Datenparallelität | FairScale: Eine universelle modulare PyTorch-Bibliothek für Hochleistungs- und groß angelegte Schulungen | JMLR |
2020 | Datenparallelität | Null: Speicheroptimierungen für das Training von Billionen-Parametermodellen | IEEE SC20 |
2019 | Modellparallelität | GPipe: Effizientes Training riesiger neuronaler Netze mithilfe von Pipeline-Parallelität | NeurIPS |
2019 | Modellparallelität | Megatron-LM: Training von Sprachmodellen mit mehreren Milliarden Parametern mithilfe von Modellparallelität | Arxiv |
2019 | Modellparallelität | PipeDream: verallgemeinerte Pipeline-Parallelität für DNN-Training | SOSP |
2018 | Modellparallelität | Mesh-Tensorflow: Deep Learning für Supercomputer | NeurIPS |
Gemischtes Präzisionstraining
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2022 | Gemischtes Präzisionstraining | BLOOM: Ein mehrsprachiges Open-Access-Sprachmodell mit 176B-Parametern | Arxiv |
2018 | Gemischtes Präzisionstraining | Bert: Vorschulung tiefer bidirektionaler Transformatoren zum Sprachverständnis | ACL |
2017 | Gemischtes Präzisionstraining | Gemischtes Präzisionstraining | ICLR |
Dateneffizienz
Wichtigkeitsstichprobe
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Bedeutung der Probenahme | LISA: Layerwise Importance Sampling zur speichereffizienten Feinabstimmung großer Sprachmodelle | Arxiv |
2023 | Umfrage zum Wichtigkeitsstichprobenverfahren | Eine Umfrage zur effizienten Ausbildung von Transformatoren | IJCAI |
2023 | Bedeutung der Probenahme | Data-Juicer: Ein One-Stop-Datenverarbeitungssystem für große Sprachmodelle | Arxiv |
2023 | Bedeutung der Probenahme | GENIAL: Verwendung informativer Datenteilmengen für ein effizientes Vortraining von Sprachmodellen | EMNLP |
2023 | Bedeutung der Probenahme | Kraftfelder des maschinellen Lernens mit datenkostenbewusstem Training | ICML |
2022 | Bedeutung der Probenahme | Jenseits neuronaler Skalierungsgesetze: Überwindung der Potenzgesetz-Skalierung durch Datenbereinigung | NeurIPS |
2021 | Bedeutung der Probenahme | Deep Learning auf Datendiät: Wichtige Beispiele schon früh im Training finden | NeurIPS |
2018 | Bedeutung der Probenahme | Schnelleres Training tiefer Modelle mit robuster, ungefährer Wichtigkeitsstichprobe | NeurIPS |
2018 | Bedeutung der Probenahme | Nicht alle Stichproben sind gleich: Deep Learning mit Importance Sampling | ICML |
Datenerweiterung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Datenerweiterung | LLMRec: Große Sprachmodelle mit Graph-Augmentation zur Empfehlung | WSDM |
2024 | Datenerweiterung | LLM-DA: Datenerweiterung über große Sprachmodelle für die Erkennung benannter Entitäten mit wenigen Schüssen | Arxiv |
2023 | Datenerweiterung | MixGen: Eine neue multimodale Datenerweiterung | WACV |
2023 | Datenerweiterung | Augmentationsbewusste Selbstüberwachung für dateneffizientes GAN-Training | NeurIPS |
2023 | Datenerweiterung | Verbesserung der End-to-End-Sprachverarbeitung durch effiziente Textdatennutzung mit latenter Synthese | EMNLP |
2023 | Datenerweiterung | FaMeSumm: Untersuchung und Verbesserung der Treue medizinischer Zusammenfassungen | EMNLP |
Trainingsziel
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2023 | Trainingsziel | Herausforderungen und Anwendungen großer Sprachmodelle | Arxiv |
2023 | Trainingsziel | Effizientes Datenlernen für die offene Informationsextraktion mit vorab trainierten Sprachmodellen | EMNLP |
2023 | Maskierte Sprach-Bild-Modellierung | Skalierung des Sprach-Bild-Vortrainings durch Maskierung | CVPR |
2022 | Maskierte Bildmodellierung | Maskierte Autoencoder sind skalierbare Vision-Lernende | CVPR |
2019 | Maskierte Sprachmodellierung | MASS: Maskiertes Sequence-to-Sequence-Vortraining für die Sprachgenerierung | ICML |
LLM-Feinabstimmung
Parametereffiziente Feinabstimmung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | LoRA-basierte Feinabstimmung | Dlora: Verteilte Parameter-effiziente Feinabstimmungslösung für große Sprachmodelle | Arxiv |
2024 | LoRA-basierte Feinabstimmung | SplitLoRA: Ein Split-Parameter-effizientes Feinabstimmungs-Framework für große Sprachmodelle | Arxiv |
2024 | LoRA-basierte Feinabstimmung | Dateneffiziente Feinabstimmung für LLM-basierte Empfehlungen | SIGIR |
2024 | LoRA-basierte Feinabstimmung | MEFT: Speichereffiziente Feinabstimmung durch Sparse-Adapter | ACL |
2023 | LoRA-basierte Feinabstimmung | DyLoRA: Parametereffiziente Optimierung vorab trainierter Modelle mithilfe dynamischer suchfreier Low-Rank-Anpassung | EACL |
2022 | Maskierungsbasierte Feinabstimmung | Effektive Feinabstimmung vorab trainierter Sprachmodelle durch adaptive Optimierung von Subnetzwerken | NeurIPS |
2021 | Maskierungsbasierte Feinabstimmung | BitFit: Einfache Parameter-effiziente Feinabstimmung für transformatorbasierte maskierte Sprachmodelle | ACL |
2021 | Maskierungsbasierte Feinabstimmung | Erziehen Sie ein Kind im großen Sprachmodell: Auf dem Weg zu einer effektiven und verallgemeinerbaren Feinabstimmung | EMNLP |
2021 | Maskierungsbasierte Feinabstimmung | Verzerrung von Verzerrungen in Sprachmodellen durch Partitionierung von Farbverläufen | ACL |
2019 | Maskierungsbasierte Feinabstimmung | SMART: Robuste und effiziente Feinabstimmung für vorab trainierte Modelle natürlicher Sprache durch prinzipielle regulierte Optimierung | ACL |
Vollständige Parameter-Feinabstimmung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Vollständige Parameter-Feinabstimmung | Hift: Eine hierarchische Feinabstimmungsstrategie für vollständige Parameter | Arxiv |
2024 | Untersuchung von Feinabstimmungsoptimierungen für vollständige Parameter | Eine Studie über Optimierungen zur Feinabstimmung großer Sprachmodelle | Arxiv |
2023 | Vergleichsstudie zwischen Vollparameter- und LoRA-basierter Feinabstimmung | Eine vergleichende Studie zwischen Vollparameter- und LoRA-basierter Feinabstimmung chinesischer Unterrichtsdaten für Unterricht nach einem großen Sprachmodell | Arxiv |
2023 | Vergleichsstudie zwischen Vollparameter- und Parameter-effizienter Feinabstimmung | Vergleich zwischen Parameter-effizienten Techniken und vollständiger Feinabstimmung: Eine Fallstudie zur Klassifizierung mehrsprachiger Nachrichtenartikel | Arxiv |
2023 | Vollständige Parameter-Feinabstimmung mit begrenzten Ressourcen | Vollständige Parameter-Feinabstimmung für große Sprachmodelle mit begrenzten Ressourcen | Arxiv |
2023 | Speichereffiziente Feinabstimmung | Feinabstimmung von Sprachmodellen mit Just-Forward-Durchgängen | NeurIPS |
2023 | Vollständige Parameter-Feinabstimmung für medizinische Anwendungen | PMC-LLaMA: Auf dem Weg zum Aufbau von Open-Source-Sprachmodellen für die Medizin | Arxiv |
2022 | Nachteil der vollständigen Parameter-Feinabstimmung | Durch die Feinabstimmung können vorab trainierte Funktionen verzerrt werden und Out-of-Distribution schlechter abschneiden | ICLR |
LLM-Inferenz
Modellkomprimierung
Beschneidung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Unstrukturierter Schnitt | SparseLLM: Auf dem Weg zum globalen Pruning für vorab trainierte Sprachmodelle | NeurIPS |
2024 | Strukturierter Schnitt | Verblüfft durch Ratlosigkeit: Ratlosigkeitsbasierte Datenbereinigung mit kleinen Referenzmodellen | Arxiv |
2024 | Strukturierter Schnitt | BESA: Beschneiden großer Sprachmodelle mit blockweiser Parameter-effizienter Sparsity-Zuweisung | Arxiv |
2024 | Strukturierter Schnitt | ShortGPT: Ebenen in großen Sprachmodellen sind redundanter als erwartet | Arxiv |
2024 | Strukturierter Schnitt | NutePrune: Effizientes progressives Pruning mit zahlreichen Lehrern für große Sprachmodelle | Arxiv |
2024 | Strukturierter Schnitt | SliceGPT: Komprimieren Sie große Sprachmodelle durch Löschen von Zeilen und Spalten | ICLR |
2024 | Unstrukturierter Schnitt | Dynamic Sparse No Training: Trainingsfreie Feinabstimmung für Sparse-LLMs | ICLR |
2024 | Strukturierter Schnitt | Plug-and-Play: Eine effiziente Bereinigungsmethode nach dem Training für große Sprachmodelle | ICLR |
2023 | Unstrukturierter Schnitt | One-Shot Sensitivity-Aware Mixed Sparsity Pruning für große Sprachmodelle | Arxiv |
2023 | Unstrukturierter Schnitt | SparseGPT: Riesige Sprachmodelle können auf einen Schlag präzise bereinigt werden | ICML |
2023 | Unstrukturierter Schnitt | Ein einfacher und effektiver Bereinigungsansatz für große Sprachmodelle | ICLR |
2023 | Unstrukturierter Schnitt | AccelTran: Ein Sparsity-bewusster Beschleuniger für dynamische Inferenz mit Transformatoren | TCAD |
2023 | Strukturierter Schnitt | LLM-Pruner: Zur strukturellen Beschneidung großer Sprachmodelle | NeurIPS |
2023 | Strukturierter Schnitt | LoSparse: Strukturierte Komprimierung großer Sprachmodelle basierend auf Low-Rank- und Sparse-Approximation | ICML |
2023 | Strukturierter Schnitt | Strukturiertes Bereinigen für effiziente generative vorab trainierte Sprachmodelle | ACL |
2023 | Strukturierter Schnitt | ZipLM: Inferenzbewusstes strukturiertes Bereinigen von Sprachmodellen | NeurIPS |
2023 | Kontextuelles Beschneiden | Deja Vu: Kontextuelle Sparsität für effiziente LLMs zur Inferenzzeit | ICML |
Quantisierung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Gewichtsquantisierung | Bewertung quantisierter großer Sprachmodelle | Arxiv |
2024 | Gewichtsquantisierung | I-LLM: Effiziente Nur-Ganzzahl-Inferenz für vollständig quantisierte Low-Bit-Modelle großer Sprachen | Arxiv |
2024 | Gewichtsquantisierung | ABQ-LLM: Arbitrary-Bit-quantisierte Inferenzbeschleunigung für große Sprachmodelle | Arxiv |
2024 | Co-Quantisierung der Gewichtsaktivierung | Rotation und Permutation für erweitertes Ausreißermanagement und effiziente Quantisierung von LLMs | NeurIPS |
2024 | Gewichtsquantisierung | OmniQuant: Omnidirektional kalibrierte Quantisierung für große Sprachmodelle | ICLR |
2023 | Gewichtsquantisierung | Flexround: Lernbare Rundung basierend auf elementweiser Division für die Quantisierung nach dem Training | ICML |
2023 | Gewichtsquantisierung | Ausreißerunterdrückung+: Genaue Quantisierung großer Sprachmodelle durch äquivalente und optimale Verschiebung und Skalierung | EMNLP |
2023 | Gewichtsquantisierung | OWQ: Ausreißerbewusste Gewichtsquantisierung für effiziente Feinabstimmung und Inferenz großer Sprachmodelle | AAAI |
2023 | Gewichtsquantisierung | Gptq: Genaue Posttraining-Quantisierung für generative vorab trainierte Transformatoren | ICLR |
2023 | Gewichtsquantisierung | Dynamische Stashing-Quantisierung für effizientes Transformer-Training | EMNLP |
2023 | Gewichtsquantisierung | Quantisierungsbewusstes und tensorkomprimiertes Training von Transformatoren für das Verständnis natürlicher Sprache | Interspeech |
2023 | Gewichtsquantisierung | QLoRA: Effiziente Feinabstimmung quantisierter LLMs | NeurIPS |
2023 | Gewichtsquantisierung | Stabiles und wenig präzises Training für groß angelegte Vision-Sprachmodelle | NeurIPS |
2023 | Gewichtsquantisierung | Prequant: Ein aufgabenunabhängiger Quantisierungsansatz für vorab trainierte Sprachmodelle | ACL |
2023 | Gewichtsquantisierung | Olive: Beschleunigung großer Sprachmodelle durch hardwarefreundliche Outliervictim-Paarquantisierung | ISCA |
2023 | Gewichtsquantisierung | Awq: Aktivierungsbewusste Gewichtsquantisierung für LM-Komprimierung und -Beschleunigung | arXiv |
2023 | Gewichtsquantisierung | Spqr: Eine spärlich quantisierte Darstellung für nahezu verlustfreie LM-Gewichtskomprimierung | arXiv |
2023 | Gewichtsquantisierung | SqueezeLLM: Dichte-und-sparsame Quantisierung | arXiv |
2023 | Gewichtsquantisierung | LLM-QAT: Datenfreies Quantisierungsbewusstes Training für große Sprachmodelle | arXiv |
2022 | Aktivierungsquantisierung | Gact: Aktivierungskomprimiertes Training für generische Netzwerkarchitekturen | ICML |
2022 | Festkomma-Quantisierung | Steigern Sie Vision Transformer mit GPU-freundlicher Sparsity und Quantisierung | ACL |
2021 | Aktivierungsquantisierung | Ac-gc: Verlustbehaftete Aktivierungskomprimierung mit garantierter Konvergenz | NeurIPS |
Dynamische Beschleunigung
Eingabebeschneidung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Punktebasierte Token-Entfernung | Prompt-Prompted Adaptive Structured Pruning für eine effiziente LLM-Generierung | COLM |
2024 | Punktebasierte Token-Entfernung | LazyLLM: Dynamisches Token-Beschneiden für effiziente LLM-Inferenz mit langem Kontext | Arxiv |
2024 | Lernbasierte Token-Entfernung | LLMLingua-2: Datendestillation für eine effiziente und zuverlässige aufgabenunabhängige Prompt-Komprimierung | ACL |
2024 | Lernbasierte Token-Entfernung | Komprimierter Kontextspeicher für Online-Sprachmodellinteraktion | ICLR |
2023 | Punktebasierte Token-Entfernung | Einschränkungsbewusstes und Ranking-basiertes Token Pruning für eine effiziente Transformer-Inferenz | KDD |
2023 | Lernbasierte Token-Entfernung | PuMer: Beschneiden und Zusammenführen von Token für effiziente Vision-Sprachmodelle | ACL |
2023 | Lernbasierte Token-Entfernung | Infor-Coef: Auf Informationsengpässen basierendes dynamisches Token-Downsampling für ein kompaktes und effizientes Sprachmodell | arXiv |
2023 | Lernbasierte Token-Entfernung | SmartTrim: Adaptives Beschneiden von Token und Parametern für effiziente Bild-Sprach-Modelle | arXiv |
2022 | Lernbasierte Token-Entfernung | Transkimmer: Transformer lernt, schichtweise zu überfliegen | ACL |
2022 | Punktebasierte Token-Entfernung | Token Pruning für Transformers gelernt | KDD |
2021 | Lernbasierte Token-Entfernung | TR-BERT: Dynamische Token-Reduktion zur Beschleunigung der BERT-Inferenz | NAACL |
2021 | Punktebasierte Token-Entfernung | Effiziente Sparse-Attention-Architektur mit Kaskaden-Token und Head Pruning | HPCA |
Systemdesign
Bereitstellungsoptimierung
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Hardware-Optimierung | LUT TENSOR CORE: Nachschlagetabelle ermöglicht effiziente Low-Bit-LLM-Inferenzbeschleunigung | Arxiv |
2023 | Hardware-Offloading | FlexGen: Generative Inferenz großer Sprachmodelle mit hohem Durchsatz mit einer einzigen GPU | PMLR |
2023 | Hardware-Offloading | Schnelle verteilte Inferenz für große Sprachmodelle | arXiv |
2022 | Kollaborative Schlussfolgerung | Blütenblätter: Kollaborative Inferenz und Feinabstimmung großer Modelle | arXiv |
2022 | Hardware-Offloading | DeepSpeed-Inferenz: Ermöglicht eine effiziente Inferenz von Transformatormodellen in beispiellosem Maßstab | IEEE SC22 |
Support-Infrastruktur
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2024 | Edge-Geräte | MobileLLM: Optimierung von Submilliarden-Parametersprachenmodellen für Anwendungsfälle auf dem Gerät | ICML |
2024 | Edge-Geräte | EdgeShard: Effiziente LLM-Inferenz durch kollaboratives Edge Computing | Arxiv |
2024 | Edge-Geräte | LLM mit beliebiger Präzision: Kostengünstige Bereitstellung mehrerer LLMs unterschiedlicher Größe | ICML |
2024 | Edge-Geräte | Die bahnbrechenden Speicherlösungen für verbesserte Leistung bei LM-Inferenz | IEEE Micro |
2024 | Edge-Geräte | Schmelzpunkt: Mobile Evaluierung von Sprachtransformatoren | MobiCom |
2024 | Edge-Geräte | LLM als Systemdienst auf mobilen Geräten | Arxiv |
2024 | Edge-Geräte | LocMoE: Ein MoE mit geringem Overhead für das Training großer Sprachmodelle | Arxiv |
2024 | Edge-Geräte | Jetmoe: Erreichen der Lama2-Leistung mit 0,1 Mio. Dollar | Arxiv |
2023 | Edge-Geräte | Training neuronaler Sprachmodelle mit großem Vokabular durch Private Federated Learning für ressourcenbeschränkte Geräte | ICASSP |
2023 | Edge-Geräte | Föderierte Feinabstimmung von LLMs am äußersten Rand: Das Gute, das Schlechte, das Hässliche | arXiv |
2023 | Bibliotheken | Colossal-AI: Ein einheitliches Deep-Learning-System für umfangreiches Paralleltraining | ICPP |
2023 | Bibliotheken | GPT-NeoX-20B: Ein autoregressives Open-Source-Sprachmodell | ACL |
2023 | Edge-Geräte | Große Sprachmodelle ermöglichen autonome Edge-KI für vernetzte Intelligenz | arXiv |
2022 | Bibliotheken | DeepSpeed-Inferenz: Ermöglicht eine effiziente Inferenz von Transformatormodellen in beispiellosem Maßstab | IEEE SC22 |
2022 | Bibliotheken | Alpa: Automatisierung der Inter- und Intra-Operator-Parallelität für verteiltes Deep Learning | OSDI |
2022 | Edge-Geräte | EdgeFormer: Ein Parameter-effizienter Transformator für die Seq2seq-Generierung auf dem Gerät | arXiv |
2022 | Edge-Geräte | ProFormer: Auf dem Weg zu projektionsbasierten LSH-Transformatoren auf dem Gerät | ACL |
2021 | Edge-Geräte | Generieren Sie mehr Funktionen mit günstigen Vorgängen für BERT | ACL |
2021 | Edge-Geräte | SqueezeBERT: Was kann Computer Vision NLP über effiziente neuronale Netze beibringen? | SustainNLP |
2020 | Edge-Geräte | Lite-Transformator mit Lang- und Kurzstrecken-Aufmerksamkeit | arXiv |
2019 | Bibliotheken | Megatron-LM: Training von Sprachmodellen mit mehreren Milliarden Parametern mithilfe von Modellparallelität | IEEE SC22 |
2018 | Bibliotheken | Mesh-TensorFlow: Deep Learning für Supercomputer | NeurIPS |
Andere Systeme
Datum | Schlüsselwörter | Papier | Veranstaltungsort |
---|
2023 | Andere Systeme | Tabi: Ein effizientes mehrstufiges Inferenzsystem für große Sprachmodelle | EuroSys |
2023 | Andere Systeme | Nahezu doppelte Sequenzsuche im großen Maßstab für die Bewertung der Speicherung großer Sprachmodelle | PACMMOD |
Metriken und Benchmarks zur Bewertung der Ressourceneffizienz
? Berechnungsmetriken
Metrisch | Beschreibung | Beispielverwendung |
---|
FLOPs (Gleitkommaoperationen) | die Anzahl der arithmetischen Operationen auf Gleitkommazahlen | [FLOPs] |
Trainingszeit | die für das Training erforderliche Gesamtdauer, typischerweise gemessen in Minuten, Stunden oder Tagen | [Minuten, Tage] [Std] |
Inferenzzeit/Latenz | Die durchschnittliche Zeit, die zum Generieren einer Ausgabe nach dem Empfang einer Eingabe erforderlich ist, wird normalerweise in der Wanduhrzeit oder der CPU/GPU/TPU-Uhrzeit in Millisekunden oder Sekunden gemessen | [End-to-End-Latenz in Sekunden] [Latenz der nächsten Token-Generierung in Millisekunden] |
Durchsatz | die Rate der Generierung von Ausgabe-Tokens oder des Abschlusses von Aufgaben, typischerweise gemessen in Tokens pro Sekunde (TPS) oder Abfragen pro Sekunde (QPS). | [Token/s] [Abfragen/s] |
Beschleunigungsverhältnis | die Verbesserung der Inferenzgeschwindigkeit im Vergleich zu einem Basismodell | [Beschleunigung der Inferenzzeit] [Durchsatzbeschleunigung] |
? Speichermetriken
Metrisch | Beschreibung | Beispielverwendung |
---|
Anzahl der Parameter | die Anzahl der einstellbaren Variablen im neuronalen Netzwerk des LLM | [Anzahl der Parameter] |
Modellgröße | der Speicherplatz, der für die Lagerung des gesamten Modells erforderlich ist | [Spitzenspeichernutzung in GB] |
⚡️ Energiemetriken
Metrisch | Beschreibung | Beispielverwendung |
---|
Energieverbrauch | die elektrische Energie, die während des Lebenszyklus des LLM verbraucht wird | [kWh] |
Kohlenstoffemission | die Treibhausgasemissionen, die mit dem Energieverbrauch des Modells verbunden sind | [kgCO2eq] |
Im Folgenden sind Softwarepakete verfügbar, die für die Echtzeitverfolgung des Energieverbrauchs und der CO2-Emissionen konzipiert sind.
- CodeCarbon
- Carbontracker
- Experiment-Impact-Tracker
Möglicherweise finden Sie auch Folgendes hilfreich, um den Energieverbrauch und den CO2-Fußabdruck vor dem eigentlichen Training vorherzusagen oder
- ML CO2-Auswirkungen
- LLMCarbon
? Finanzielle Kostenmetrik
Metrisch | Beschreibung | Beispielverwendung |
---|
Dollar pro Parameter | die Gesamtkosten für das Training (oder den Betrieb) des LLM nach der Anzahl der Parameter | |
? Netzwerkkommunikationsmetrik
Metrisch | Beschreibung | Beispielverwendung |
---|
Kommunikationsvolumen | die Gesamtmenge der Daten, die während einer bestimmten LLM-Ausführung oder eines bestimmten Trainingslaufs über das Netzwerk übertragen werden | [Kommunikationsvolumen in TB] |
Andere Metriken
Metrisch | Beschreibung | Beispielverwendung |
---|
Kompressionsverhältnis | die Verkleinerung des komprimierten Modells im Vergleich zum Originalmodell | [Komprimierungsrate] [Prozentsatz der verbleibenden Gewichte] |
Loyalität/Treue | die Ähnlichkeit zwischen den Lehrer- und Schülermodellen hinsichtlich der Konsistenz der Vorhersagen und der Ausrichtung der vorhergesagten Wahrscheinlichkeitsverteilungen | [Loyalität] [Treue] |
Robustheit | die Widerstandsfähigkeit gegen gegnerische Angriffe, bei denen geringfügige Eingabeänderungen möglicherweise die Ausgabe des Modells manipulieren können | [Genauigkeit nach dem Angriff, Abfragenummer] |
Pareto-Optimalität | die optimalen Kompromisse zwischen verschiedenen konkurrierenden Faktoren | [Pareto-Grenze (Kosten und Genauigkeit)] [Pareto-Grenze (Leistung und FLOPs)] |
Benchmarks
Benchmark | Beschreibung | Papier |
---|
Allgemeine NLP-Benchmarks | eine umfangreiche Sammlung allgemeiner NLP-Benchmarks wie GLUE, SuperGLUE, WMT und SQuAD usw. | Ein umfassender Überblick über große Sprachmodelle |
Dynaboard | eine Open-Source-Plattform zur Bewertung von NLP-Modellen in der Cloud, die Echtzeitinteraktion und eine ganzheitliche Bewertung der Modellqualität mit anpassbarem Dynascore bietet | Dynaboard: Eine Evaluation-as-a-Service-Plattform für ganzheitliches Benchmarking der nächsten Generation |
Effiziente Qualitätssicherung | eine Open-Domain-Quest Answering (QA)-Herausforderung bei NeurIPS 2020, die sich auf den Aufbau präziser, speichereffizienter QA-Systeme konzentriert | NeurIPS 2020 EfficientQA-Wettbewerb: Systeme, Analysen und gewonnene Erkenntnisse |
Gemeinsame SustaiNLP 2020-Aufgabe | eine Herausforderung für die Entwicklung energieeffizienter NLP-Modelle, indem ihre Leistung über acht NLU-Aufgaben mithilfe von SuperGLUE-Metriken bewertet und ihr Energieverbrauch während der Inferenz bewertet wird | Überblick über die gemeinsame Aufgabe SustaiNLP 2020 |
ELUE (Efficient Language Understanding Evaluation) | eine Benchmark-Plattform zur Bewertung der Effizienz von NLP-Modellen für verschiedene Aufgaben, die Online-Metriken bietet und für die Übermittlung lediglich eine Python-Modelldefinitionsdatei erfordert | Auf dem Weg zu effizientem NLP: Eine Standardbewertung und eine starke Basislinie |
VLUE (Vision-Language Understanding Evaluation) | ein umfassender Benchmark zur Bewertung von Vision-Sprachmodellen über mehrere Aufgaben hinweg, der eine Online-Plattform zur Bewertung und zum Vergleich bietet | VLUE: Ein Multi-Task-Benchmark zur Bewertung von Vision-Language-Modellen |
Long Range Arena (LAG) | eine Benchmark-Suite zur Bewertung effizienter Transformer-Modelle für Aufgaben mit langem Kontext, die verschiedene Modalitäten und Argumentationstypen abdeckt und gleichzeitig Bewertungen unter kontrollierten Ressourcenbeschränkungen ermöglicht, was die Effizienz in der Praxis hervorhebt | Long Range Arena: Ein Maßstab für effiziente Transformatoren |
Effizienzbewusste MS MARCO | ein verbesserter MS MARCO-Benchmark zum Abrufen von Informationen, der Effizienzmetriken wie Latenz pro Abfrage und Kosten sowie Genauigkeit integriert und so eine umfassende Bewertung von IR-Systemen ermöglicht | Über die Genauigkeit nachgelagerter Aufgaben hinaus für Benchmarking beim Informationsabruf |
Referenz
Wenn Sie diese Papierliste für Ihre Recherche nützlich finden, denken Sie bitte darüber nach, Folgendes zu zitieren:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}