Makalah LLM Hemat Sumber Daya yang Luar Biasa
Daftar makalah berkualitas tinggi tentang LLM hemat sumber daya.
Ini adalah repo GitHub untuk makalah survei kami Beyond Efficiency: Survei Sistematis Model Bahasa Besar yang Efisien Sumber Daya.
Daftar isi
- Makalah LLM Hemat Sumber Daya yang Luar Biasa
- Daftar isi
- Desain Arsitektur LLM
- Arsitektur Transformator yang Efisien
- Arsitektur Non-transformator
- Pra-Pelatihan LLM
- Efisiensi Memori
- Pelatihan Terdistribusi
- Pelatihan presisi campuran
- Efisiensi Data
- Pengambilan Sampel Pentingnya
- Augmentasi Data
- Tujuan Pelatihan
- Penyempurnaan LLM
- Penyempurnaan yang Efisien Parameter
- Penyempurnaan Parameter Penuh
- Inferensi LLM
- Kompresi Model
- Akselerasi Dinamis
- Desain Sistem
- Pengoptimalan penerapan
- Infrastruktur Pendukung
- Sistem Lainnya
- Metrik & Tolok Ukur Evaluasi Efisiensi Sumber Daya
- ? Metrik Komputasi
- ? Metrik Memori
- ⚡️ Metrik Energi
- ? Metrik Biaya Keuangan
- ? Metrik Komunikasi Jaringan
- Metrik Lainnya
- Tolok ukur
- Referensi
Desain Arsitektur LLM
Arsitektur Transformator yang Efisien
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Perkiraan perhatian | Model bahasa perhatian linier sederhana menyeimbangkan trade-off recall-throughput | ArXiv |
2024 | Perhatian perangkat keras | MobileLLM: Mengoptimalkan Model Bahasa Parameter Sub-miliar untuk Kasus Penggunaan Pada Perangkat | ArXiv |
2024 | Perkiraan perhatian | LoMA: Perhatian Memori Terkompresi Lossless | ArXiv |
2024 | Perkiraan perhatian | Dua Batu Memukul Satu Burung: Pengkodean Posisi Bilevel untuk Ekstrapolasi Panjang Lebih Baik | ICML |
2024 | Optimalisasi perangkat keras | FlashAttention-2: Perhatian Lebih Cepat dengan Paralelisme dan Partisi Kerja yang Lebih Baik | ICLR |
2023 | Optimalisasi perangkat keras | Flashattention: Perhatian tepat yang cepat dan hemat memori dengan io-awareness | sarafIPS |
2023 | Perkiraan perhatian | KDEformer: Mempercepat Transformer melalui Estimasi Kepadatan Kernel | ICML |
2023 | Perkiraan perhatian | Mega : Moving Average Dilengkapi Gated Attention | ICLR |
2022 | Optimalisasi perangkat keras | xFormers - Toolbox untuk Mempercepat Penelitian Transformers | GitHub |
2021 | Perkiraan perhatian | Perhatian yang efisien: Perhatian dengan kompleksitas linier | WACV |
2021 | Perkiraan perhatian | Transformator Bebas Perhatian | ArXiv |
2021 | Perkiraan perhatian | Perhatian diri Tidak Membutuhkan Memori O(n^2). | ArXiv |
2021 | Optimalisasi perangkat keras | LightSeq: Perpustakaan Inferensi Kinerja Tinggi untuk Transformers | NAACL |
2021 | Optimalisasi perangkat keras | FasterTransformer: Kerangka Transformer yang Lebih Cepat | GitHub |
2020 | Perkiraan perhatian | Transformer adalah RNN: Transformer Autoregresif Cepat dengan Perhatian Linier | ICML |
2019 | Perkiraan perhatian | Reformator: Transformator yang efisien | ICLR |
Arsitektur Non-transformator
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Dekoder | Anda Hanya Melakukan Cache Sekali: Arsitektur Decoder-Decoder untuk Model Bahasa | ArXiv |
2024 | lapisan BitLinear | Pemodelan Bahasa bebas MatMul yang Dapat Diskalakan | ArXiv |
2023 | RNN LM | RWKV: Menemukan Kembali RNN untuk Era Transformer | Temuan EMNLP |
2023 | MLP | Prediktor Token Berikutnya Regresif Otomatis adalah Pembelajar Universal | ArXiv |
2023 | LM Konvolusional | Hierarki Hyena: Menuju model Bahasa Konvolusional yang Lebih Besar | ICML |
2023 | Berbasis Matriks Subkuadrat | Monarch Mixer: Arsitektur Sederhana Berbasis GEMM Sub-Kuadrat | sarafIPS |
2023 | Model Ruang Negara Selektif | Mamba: Pemodelan Urutan Waktu Linier dengan Ruang Keadaan Selektif | ArXiv |
2022 | Campuran Para Ahli | Switch Transformers: Menskalakan Model Parameter Triliun dengan Ketersebaran yang Sederhana dan Efisien | JMLR |
2022 | Campuran Para Ahli | GLaM: Penskalaan Model Bahasa yang Efisien dengan Campuran Pakar | ICML |
2022 | Campuran Para Ahli | Campuran Pakar dengan Perutean Pilihan Pakar | sarafIPS |
2022 | Campuran Para Ahli | Pemodelan Bahasa Skala Besar yang Efisien dengan Campuran Para Ahli | EMNLP |
2017 | Campuran Para Ahli | Jaringan Neural yang Sangat Besar: Lapisan Campuran Pakar dengan Gerbang Jarang | ICLR |
Pra-Pelatihan LLM
Efisiensi Memori
Pelatihan Terdistribusi
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Model Paralelisme | ProTrain: Pelatihan LLM yang Efisien melalui Manajemen Memori Adaptif | Arxiv |
2024 | Model Paralelisme | MegaScale: Meningkatkan Pelatihan Model Bahasa Besar ke Lebih dari 10.000 GPU | Arxiv |
2023 | Paralelisme Data | Palm: Menskalakan pemodelan bahasa dengan jalur | Github |
2023 | Model Paralelisme | Bpipe: paralelisme pipeline dengan memori seimbang untuk melatih model bahasa besar | JMLR |
2022 | Model Paralelisme | Alpa: Mengotomatiskan Paralelisme Antar dan Intra-Operator untuk Pembelajaran Mendalam Terdistribusi | OSDI |
2021 | Paralelisme Data | FairScale: Pustaka PyTorch modular serba guna untuk pelatihan berkinerja tinggi dan berskala besar | JMLR |
2020 | Paralelisme Data | Nol: Optimalisasi memori untuk melatih triliunan model parameter | IEEE SC20 |
2019 | Model Paralelisme | GPipe: Pelatihan Jaringan Syaraf Raksasa yang Efisien menggunakan Paralelisme Saluran Pipa | sarafIPS |
2019 | Model Paralelisme | Megatron-LM: Melatih Model Bahasa Multi-Miliar Parameter Menggunakan Model Paralelisme | Arxiv |
2019 | Model Paralelisme | PipeDream: paralelisme pipeline umum untuk pelatihan DNN | SOSP |
2018 | Model Paralelisme | Mesh-tensorflow: Pembelajaran mendalam untuk superkomputer | sarafIPS |
Pelatihan presisi campuran
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2022 | Pelatihan Presisi Campuran | BLOOM: Model Bahasa Multibahasa Akses Terbuka Parameter 176B | Arxiv |
2018 | Pelatihan Presisi Campuran | Bert: Pra-pelatihan transformator dua arah yang mendalam untuk pemahaman bahasa | ACL |
2017 | Pelatihan Presisi Campuran | Pelatihan Presisi Campuran | ICLR |
Efisiensi Data
Pengambilan Sampel Pentingnya
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Pengambilan sampel penting | LISA: Pengambilan Sampel Pentingnya Berlapis untuk Penyempurnaan Model Bahasa Besar yang Efisien Memori | Arxiv |
2023 | Survei tentang pengambilan sampel penting | Survei tentang Pelatihan Transformer yang Efisien | IJCAI |
2023 | Pengambilan sampel penting | Data-Juicer: Sistem Pemrosesan Data Terpadu untuk Model Bahasa Besar | Arxiv |
2023 | Pengambilan sampel penting | CERDAS: Menggunakan Subkumpulan Data Informatif untuk Pra-Pelatihan Model Bahasa yang Efisien | EMNLP |
2023 | Pengambilan sampel penting | Bidang Kekuatan Pembelajaran Mesin dengan Pelatihan Sadar Biaya Data | ICML |
2022 | Pengambilan sampel penting | Melampaui hukum penskalaan saraf: mengalahkan penskalaan hukum kekuasaan melalui pemangkasan data | sarafIPS |
2021 | Pengambilan sampel penting | Pembelajaran Mendalam tentang Diet Data: Menemukan Contoh Penting di Awal Pelatihan | sarafIPS |
2018 | Pengambilan sampel penting | Melatih Model Mendalam Lebih Cepat dengan Pengambilan Sampel Penting yang Kuat dan Perkiraan | sarafIPS |
2018 | Pengambilan sampel penting | Tidak Semua Sampel Diciptakan Sama: Pembelajaran Mendalam dengan Pengambilan Sampel Penting | ICML |
Augmentasi Data
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Augmentasi Data | LLMRec: Model Bahasa Besar dengan Augmentasi Grafik untuk Rekomendasi | WSDM |
2024 | Augmentasi data | LLM-DA: Augmentasi Data melalui Model Bahasa Besar untuk Pengenalan Entitas Bernama Sedikit | Arxiv |
2023 | Augmentasi data | MixGen: Augmentasi Data Multi-Modal Baru | WACV |
2023 | Augmentasi data | Pengawasan Mandiri yang Sadar Augmentasi untuk Pelatihan GAN yang Efisien Data | sarafIPS |
2023 | Augmentasi data | Meningkatkan Pemrosesan Ucapan End-to-End dengan Pemanfaatan Data Teks yang Efisien dengan Sintesis Laten | EMNLP |
2023 | Augmentasi data | FaMeSumm: Menyelidiki dan Meningkatkan Ketepatan Ringkasan Medis | EMNLP |
Tujuan Pelatihan
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2023 | Tujuan pelatihan | Tantangan dan Penerapan Model Bahasa Besar | Arxiv |
2023 | Tujuan pelatihan | Pembelajaran Data yang Efisien untuk Ekstraksi Informasi Terbuka dengan Model Bahasa yang telah dilatih sebelumnya | EMNLP |
2023 | Pemodelan gambar bahasa bertopeng | Penskalaan Pra-pelatihan Bahasa-Gambar melalui Masking | CVPR |
2022 | Pemodelan gambar bertopeng | Autoencoder Bertopeng Adalah Pembelajar Visi yang Dapat Diskalakan | CVPR |
2019 | Pemodelan bahasa bertopeng | MASS: Urutan Bertopeng ke Urutan Pra-pelatihan untuk Generasi Bahasa | ICML |
Penyempurnaan LLM
Penyempurnaan yang Efisien Parameter
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Penyempurnaan berbasis LoRA | Dlora: Solusi penyesuaian parameter terdistribusi yang efisien untuk model bahasa besar | Arxiv |
2024 | Penyempurnaan berbasis LoRA | SplitLoRA: Kerangka Penyempurnaan Efisien Parameter Terpisah untuk Model Bahasa Besar | Arxiv |
2024 | Penyempurnaan berbasis LoRA | Penyempurnaan Data yang Efisien untuk Rekomendasi Berbasis LLM | SIGIR |
2024 | Penyempurnaan berbasis LoRA | MEFT: Penyempurnaan Hemat Memori melalui Adaptor Jarang | ACL |
2023 | Penyempurnaan berbasis LoRA | DyLoRA: Penyetelan Model Terlatih yang Efisien Parameter menggunakan Adaptasi Peringkat Rendah Bebas Penelusuran Dinamis | EACL |
2022 | Penyempurnaan berbasis masking | Menyempurnakan Model Bahasa Terlatih Secara Efektif dengan Mengoptimalkan Subjaringan Secara Adaptif | sarafIPS |
2021 | Penyempurnaan berbasis masking | BitFit: Penyempurnaan Parameter Sederhana yang efisien untuk model Bahasa Masked berbasis Transformer | ACL |
2021 | Penyempurnaan berbasis masking | Membesarkan Anak dalam Model Bahasa Besar: Menuju Penyempurnaan yang Efektif dan Dapat Digeneralisasikan | EMNLP |
2021 | Penyempurnaan berbasis masking | Menghilangkan Bias dalam Model Bahasa dengan Mempartisi Gradien | ACL |
2019 | Penyempurnaan berbasis masking | SMART: Penyempurnaan yang Kuat dan Efisien untuk Model Bahasa Alami Terlatih melalui Optimasi Teratur Berprinsip | ACL |
Penyempurnaan Parameter Penuh
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Penyempurnaan parameter penuh | Hift: Strategi penyesuaian parameter penuh hierarki | Arxiv |
2024 | Studi tentang optimasi penyempurnaan parameter penuh | Studi tentang Optimasi untuk Menyempurnakan Model Bahasa Besar | Arxiv |
2023 | Studi perbandingan antara fine-tuning parameter penuh dan basis LoRA | Studi Perbandingan antara Penyempurnaan Parameter Penuh dan Berbasis LoRA pada Data Instruksi Bahasa Mandarin untuk Instruksi yang Mengikuti Model Bahasa Besar | Arxiv |
2023 | Studi perbandingan antara fine-tuning parameter penuh dan parameter efisien | Perbandingan antara teknik hemat parameter dan penyesuaian penuh: Studi kasus tentang klasifikasi artikel berita multibahasa | Arxiv |
2023 | Penyempurnaan parameter penuh dengan sumber daya terbatas | Penyempurnaan Parameter Lengkap untuk Model Bahasa Besar dengan Sumber Daya Terbatas | Arxiv |
2023 | Penyempurnaan hemat memori | Menyempurnakan Model Bahasa dengan Just Forward Passes | sarafIPS |
2023 | Penyempurnaan parameter penuh untuk aplikasi kedokteran | PMC-LLaMA: Menuju Membangun Model Bahasa Sumber Terbuka untuk Kedokteran | Arxiv |
2022 | Kelemahan dari penyempurnaan parameter penuh | Penyempurnaan dapat Mendistorsi Fitur yang Sudah Dilatih dan Berkinerja Buruk di Luar Distribusi | ICLR |
Inferensi LLM
Kompresi Model
Pemangkasan
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Pemangkasan Tidak Terstruktur | SparseLLM: Menuju Pemangkasan Global untuk Model Bahasa Terlatih | sarafIPS |
2024 | Pemangkasan Terstruktur | Bingung dengan Kebingungan: Pemangkasan Data Berbasis Kebingungan Dengan Model Referensi Kecil | Arxiv |
2024 | Pemangkasan Terstruktur | BESA: Memangkas Model Bahasa Besar dengan Alokasi Sparsitas Efisien Parameter Blockwise | Arxiv |
2024 | Pemangkasan Terstruktur | ShortGPT: Lapisan dalam Model Bahasa Besar Lebih Berlebihan dari yang Anda Harapkan | Arxiv |
2024 | Pemangkasan Terstruktur | NutePrune: Pemangkasan Progresif yang Efisien dengan Banyak Guru untuk Model Bahasa Besar | Arxiv |
2024 | Pemangkasan Terstruktur | SliceGPT: Kompres Model Bahasa Besar dengan Menghapus Baris dan Kolom | ICLR |
2024 | Pemangkasan Tidak Terstruktur | Dinamis Jarang Tanpa Pelatihan: Penyempurnaan Tanpa Pelatihan untuk LLM Jarang | ICLR |
2024 | Pemangkasan Terstruktur | Plug-and-Play: Metode Pemangkasan Pasca-pelatihan yang Efisien untuk Model Bahasa Besar | ICLR |
2023 | Pemangkasan Tidak Terstruktur | Pemangkasan Ketersebaran Campuran Sadar Sensitivitas Sekali Pakai untuk Model Bahasa Besar | Arxiv |
2023 | Pemangkasan Tidak Terstruktur | SparseGPT: Model Bahasa Masif Dapat Dipangkas Secara Akurat dalam Sekali Pemotretan | ICML |
2023 | Pemangkasan Tidak Terstruktur | Pendekatan Pemangkasan yang Sederhana dan Efektif untuk Model Bahasa Besar | ICLR |
2023 | Pemangkasan Tidak Terstruktur | AccelTran: Akselerator Sadar Ketersebaran untuk Inferensi Dinamis Dengan Transformer | TCAD |
2023 | Pemangkasan Terstruktur | LLM-Pruner: Tentang Pemangkasan Struktural Model Bahasa Besar | sarafIPS |
2023 | Pemangkasan Terstruktur | LoSparse: Kompresi Terstruktur Model Bahasa Besar berdasarkan Pendekatan Tingkat Rendah dan Jarang | ICML |
2023 | Pemangkasan Terstruktur | Pemangkasan Terstruktur untuk Model Bahasa Generatif Terlatih yang Efisien | ACL |
2023 | Pemangkasan Terstruktur | ZipLM: Pemangkasan Model Bahasa Terstruktur Sadar Inferensi | sarafIPS |
2023 | Pemangkasan Kontekstual | Deja Vu: Ketersebaran Kontekstual untuk LLM yang Efisien pada Waktu Inferensi | ICML |
Kuantisasi
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Kuantisasi Berat | Mengevaluasi Model Bahasa Besar Terkuantisasi | Arxiv |
2024 | Kuantisasi Berat | I-LLM: Inferensi Khusus Integer yang Efisien untuk Model Bahasa Besar Bit Rendah yang Terkuantisasi Sepenuhnya | Arxiv |
2024 | Kuantisasi Berat | ABQ-LLM: Akselerasi Inferensi Terkuantisasi Bit Sewenang-wenang untuk Model Bahasa Besar | Arxiv |
2024 | Kuantisasi Bersama Aktivasi Berat | Rotasi dan Permutasi untuk Manajemen Outlier Tingkat Lanjut dan Kuantisasi LLM yang Efisien | sarafIPS |
2024 | Kuantisasi Berat | OmniQuant: Kuantisasi yang Dikalibrasi Secara Omniarah untuk Model Bahasa Besar | ICLR |
2023 | Kuantisasi Berat | Flexround: Pembulatan yang dapat dipelajari berdasarkan pembagian elemen untuk kuantisasi pasca-pelatihan | ICML |
2023 | Kuantisasi Berat | Outlier Suppression+: Kuantisasi akurat model bahasa besar dengan pergeseran dan penskalaan yang setara dan optimal | EMNLP |
2023 | Kuantisasi Berat | OWQ: Kuantisasi Bobot Sadar Outlier untuk Penyempurnaan dan Inferensi Model Bahasa Besar yang Efisien | AAAI |
2023 | Kuantisasi Berat | Gptq: Kuantisasi pascapelatihan yang akurat untuk transformator generatif yang telah dilatih sebelumnya | ICLR |
2023 | Kuantisasi Berat | Kuantisasi Penyimpanan Dinamis untuk Pelatihan Transformator yang Efisien | EMNLP |
2023 | Kuantisasi Berat | Pelatihan transformator yang sadar kuantisasi dan kompresi tensor untuk pemahaman bahasa alami | antar pidato |
2023 | Kuantisasi Berat | QLoRA: Penyempurnaan LLM Terkuantisasi yang Efisien | sarafIPS |
2023 | Kuantisasi Berat | Pelatihan yang stabil dan presisi rendah untuk model bahasa visi skala besar | sarafIPS |
2023 | Kuantisasi Berat | Prequant: Pendekatan kuantisasi tugas-agnostik untuk model bahasa terlatih | ACL |
2023 | Kuantisasi Berat | Olive: Mempercepat model bahasa besar melalui kuantisasi pasangan outliervictim yang ramah perangkat keras | ISCA |
2023 | Kuantisasi Berat | Awq: Kuantisasi bobot sadar aktivasi untuk kompresi dan akselerasi llm | arXiv |
2023 | Kuantisasi Berat | Spqr: Representasi terkuantisasi jarang untuk kompresi bobot llm yang hampir tanpa kerugian | arXiv |
2023 | Kuantisasi Berat | SqueezeLLM: Kuantisasi Padat dan Jarang | arXiv |
2023 | Kuantisasi Berat | LLM-QAT: Pelatihan Sadar Kuantisasi Bebas Data untuk Model Bahasa Besar | arXiv |
2022 | Kuantisasi Aktivasi | Gact: Pelatihan terkompresi aktivasi untuk arsitektur jaringan generik | ICML |
2022 | Kuantisasi Titik Tetap | Tingkatkan Vision Transformer dengan Ketersebaran dan Kuantisasi yang Ramah GPU | ACL |
2021 | Kuantisasi Aktivasi | Ac-gc: Kompresi aktivasi lossy dengan jaminan konvergensi | sarafIPS |
Akselerasi Dinamis
Pemangkasan Masukan
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Penghapusan Token Berbasis Skor | Pemangkasan Terstruktur Adaptif Segera untuk Generasi LLM yang Efisien | KOLOM |
2024 | Penghapusan Token Berbasis Skor | LazyLLM: Pemangkasan Token Dinamis untuk Inferensi LLM Konteks Panjang yang Efisien | Arxiv |
2024 | Penghapusan Token Berbasis Pembelajaran | LLMLingua-2: Penyulingan Data untuk Kompresi Cepat Agnostik Tugas yang Efisien dan Setia | ACL |
2024 | Penghapusan Token Berbasis Pembelajaran | Memori Konteks Terkompresi Untuk Interaksi Model Bahasa Online | ICLR |
2023 | Penghapusan Token Berbasis Skor | Pemangkasan Token yang Menyadari Batasan dan menyaring Peringkat untuk Inferensi Transformator yang Efisien | KDD |
2023 | Penghapusan Token Berbasis Pembelajaran | PuMer: Memangkas dan Menggabungkan Token untuk Model Bahasa Visi yang Efisien | ACL |
2023 | Penghapusan Token Berbasis Pembelajaran | Infor-Coef: Downsampling Token Dinamis berbasis Hambatan Informasi untuk model bahasa yang Ringkas dan Efisien | arXiv |
2023 | Penghapusan Token Berbasis Pembelajaran | SmartTrim: Pemangkasan Token dan Parameter Adaptif untuk Model Bahasa Penglihatan yang Efisien | arXiv |
2022 | Penghapusan Token Berbasis Pembelajaran | Transkimmer: Transformer Belajar Skim Berlapis | ACL |
2022 | Penghapusan Token Berbasis Skor | Pemangkasan Token yang Dipelajari untuk Transformers | KDD |
2021 | Penghapusan Token Berbasis Pembelajaran | TR-BERT: Pengurangan Token Dinamis untuk Mempercepat Inferensi BERT | NAACL |
2021 | Penghapusan Token Berbasis Skor | Arsitektur perhatian jarang yang efisien dengan token kaskade dan pemangkasan kepala | HPCA |
Desain Sistem
Pengoptimalan penerapan
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Optimasi Perangkat Keras | LUT TENSOR CORE: Tabel Pencarian Memungkinkan Akselerasi Inferensi LLM Bit Rendah yang Efisien | Arxiv |
2023 | Pembongkaran perangkat keras | FlexGen: Inferensi Generatif Throughput Tinggi dari Model Bahasa Besar dengan GPU Tunggal | PMLR |
2023 | Pembongkaran perangkat keras | Inferensi terdistribusi cepat melayani model bahasa besar | arXiv |
2022 | Inferensi kolaboratif | Kelopak: Inferensi Kolaboratif dan Penyempurnaan Model Besar | arXiv |
2022 | Pembongkaran perangkat keras | Inferensi DeepSpeed: Mengaktifkan Inferensi Model Transformator yang Efisien pada Skala yang Belum Pernah Ada Sebelumnya | IEEE SC22 |
Infrastruktur Pendukung
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2024 | Perangkat tepi | MobileLLM: Mengoptimalkan Model Bahasa Parameter Sub-miliar untuk Kasus Penggunaan Pada Perangkat | ICML |
2024 | Perangkat tepi | EdgeShard: Inferensi LLM yang Efisien melalui Collaborative Edge Computing | Arxiv |
2024 | Perangkat tepi | LLM Presisi Apa Pun: Penerapan Berbagai LLM dengan Ukuran Berbeda dan Berbiaya Rendah | ICML |
2024 | Perangkat tepi | Solusi memori terobosan untuk meningkatkan kinerja pada inferensi llm | IEEE Mikro |
2024 | Perangkat tepi | Titik leleh: Evaluasi Seluler Transformator Bahasa | MobiCom |
2024 | Perangkat tepi | LLM sebagai Layanan Sistem pada Perangkat Seluler | Arxiv |
2024 | Perangkat tepi | LocMoE: MoE dengan biaya rendah untuk Pelatihan Model Bahasa Besar | Arxiv |
2024 | Perangkat tepi | Jetmoe: Mencapai kinerja llama2 dengan 0,1 juta dolar | Arxiv |
2023 | Perangkat tepi | Melatih Model Bahasa Neural Kosakata Besar dengan Pembelajaran Federasi Privat untuk Perangkat dengan Sumber Daya Terbatas | ICASSP |
2023 | Perangkat tepi | Penyempurnaan Federasi LLM di Ujungnya: Yang Baik, Yang Buruk, Yang Jelek | arXiv |
2023 | Perpustakaan | Colossal-AI: Sistem Pembelajaran Mendalam Terpadu Untuk Pelatihan Paralel Skala Besar | ICPP |
2023 | Perpustakaan | GPT-NeoX-20B: Model Bahasa Autoregresif Sumber Terbuka | ACL |
2023 | Perangkat tepi | Model Bahasa Besar Mendukung AI Autonomous Edge untuk Kecerdasan Terhubung | arXiv |
2022 | Perpustakaan | Inferensi DeepSpeed: Mengaktifkan Inferensi Model Transformator yang Efisien pada Skala yang Belum Pernah Ada Sebelumnya | IEEE SC22 |
2022 | Perpustakaan | Alpa: Mengotomatiskan Paralelisme Antar dan Intra-Operator untuk Pembelajaran Mendalam Terdistribusi | OSDI |
2022 | Perangkat tepi | EdgeFormer: Transformator Efisien Parameter untuk Generasi Seq2seq Pada Perangkat | arXiv |
2022 | Perangkat tepi | ProFormer: Menuju Transformer Berbasis Proyeksi LSH Pada Perangkat | ACL |
2021 | Perangkat tepi | Hasilkan Lebih Banyak Fitur dengan Operasi Murah untuk BERT | ACL |
2021 | Perangkat tepi | SqueezeBERT: Apa yang dapat diajarkan oleh computer vision kepada NLP tentang jaringan saraf yang efisien? | KeberlanjutanNLP |
2020 | Perangkat tepi | Lite Transformer dengan Perhatian Jarak Jauh-Pendek | arXiv |
2019 | Perpustakaan | Megatron-LM: Melatih Model Bahasa Multi-Miliar Parameter Menggunakan Model Paralelisme | IEEE SC22 |
2018 | Perpustakaan | Mesh-TensorFlow: Pembelajaran Mendalam untuk Superkomputer | sarafIPS |
Sistem Lainnya
Tanggal | Kata kunci | Kertas | Lokasi |
---|
2023 | Sistem Lainnya | Tabi: Sistem Inferensi Multi-Level yang Efisien untuk Model Bahasa Besar | EuroSys |
2023 | Sistem Lainnya | Pencarian Urutan Hampir Duplikat dalam Skala untuk Evaluasi Penghafalan Model Bahasa Besar | MOD PAMM |
Metrik & Tolok Ukur Evaluasi Efisiensi Sumber Daya
? Metrik Komputasi
Metrik | Keterangan | Contoh Penggunaan |
---|
FLOP (Operasi floating-point) | jumlah operasi aritmatika pada bilangan floating-point | [FLOP] |
Waktu Pelatihan | total durasi yang diperlukan untuk pelatihan, biasanya diukur dalam menit, jam, atau hari jam dinding | [menit, hari] [jam] |
Waktu/Latensi Inferensi | waktu rata-rata yang diperlukan untuk menghasilkan keluaran setelah menerima masukan, biasanya diukur dalam waktu jam dinding atau waktu jam CPU/GPU/TPU dalam milidetik atau detik | [latensi ujung ke ujung dalam hitungan detik] [latensi pembuatan token berikutnya dalam milidetik] |
Hasil | tingkat pembuatan token keluaran atau penyelesaian tugas, biasanya diukur dalam token per detik (TPS) atau kueri per detik (QPS) | [token] [kueri] |
Rasio Kecepatan | peningkatan kecepatan inferensi dibandingkan dengan model dasar | [percepatan waktu inferensi] [percepatan throughput] |
? Metrik Memori
Metrik | Keterangan | Contoh Penggunaan |
---|
Jumlah Parameter | jumlah variabel yang dapat disesuaikan dalam jaringan saraf LLM | [jumlah parameter] |
Ukuran Model | ruang penyimpanan yang diperlukan untuk menyimpan seluruh model | [penggunaan memori puncak dalam GB] |
⚡️ Metrik Energi
Metrik | Keterangan | Contoh Penggunaan |
---|
Konsumsi Energi | daya listrik yang digunakan selama siklus hidup LLM | [kWh] |
Emisi Karbon | emisi gas rumah kaca yang terkait dengan penggunaan energi model | [kgCO2eq] |
Berikut ini adalah paket perangkat lunak yang dirancang untuk pelacakan konsumsi energi dan emisi karbon secara real-time.
- KodeKarbon
- pelacak karbon
- pelacak dampak-eksperimen
Anda mungkin juga menemukan hal berikut berguna untuk memprediksi penggunaan energi dan jejak karbon sebelum pelatihan sebenarnya atau
? Metrik Biaya Keuangan
Metrik | Keterangan | Contoh Penggunaan |
---|
Dolar per parameter | total biaya pelatihan (atau menjalankan) LLM dengan jumlah parameter | |
? Metrik Komunikasi Jaringan
Metrik | Keterangan | Contoh Penggunaan |
---|
Volume Komunikasi | jumlah total data yang dikirimkan melalui jaringan selama eksekusi atau pelatihan LLM tertentu | [volume komunikasi dalam TB] |
Metrik Lainnya
Metrik | Keterangan | Contoh Penggunaan |
---|
Rasio Kompresi | pengurangan ukuran model terkompresi dibandingkan model aslinya | [tingkat kompresi] [persentase bobot tersisa] |
Loyalitas/Kesetiaan | kemiripan antara model guru dan siswa dalam hal konsistensi prediksi dan keselarasan distribusi probabilitas yang diprediksi | [loyalitas] [kesetiaan] |
Kekokohan | ketahanan terhadap serangan permusuhan, di mana sedikit modifikasi masukan berpotensi memanipulasi keluaran model | [akurasi setelah serangan, nomor permintaan] |
Optimalitas Pareto | trade-off optimal antara berbagai faktor yang bersaing | [Perbatasan Pareto (biaya dan akurasi)] [Perbatasan Pareto (kinerja dan FLOP)] |
Tolok ukur
Tolok ukur | Keterangan | Kertas |
---|
Tolok Ukur NLP Umum | koleksi ekstensif benchmark NLP umum seperti GLUE, SuperGLUE, WMT, dan SQuAD, dll. | Tinjauan Komprehensif Model Bahasa Besar |
papan dina | platform sumber terbuka untuk mengevaluasi model NLP di cloud, menawarkan interaksi waktu nyata dan penilaian holistik terhadap kualitas model dengan Dynascore yang dapat disesuaikan | Dynaboard: Platform Evaluasi Sebagai Layanan untuk Tolok Ukur Holistik Generasi Berikutnya |
EfisienQA | tantangan Menjawab Pertanyaan (QA) domain terbuka di NeurIPS 2020 yang berfokus pada pembangunan sistem QA yang akurat dan hemat memori | Kompetisi EfficientQA NeurIPS 2020: Sistem, Analisis, dan Pembelajaran |
Tugas Bersama SustaiNLP 2020 | tantangan bagi pengembangan model NLP hemat energi dengan menilai kinerjanya di delapan tugas NLU menggunakan metrik SuperGLUE dan mengevaluasi konsumsi energinya selama inferensi | Sekilas Mengenai Tugas Bersama SustaiNLP 2020 |
ELUE (Evaluasi Pemahaman Bahasa yang Efisien) | platform tolok ukur untuk mengevaluasi efisiensi model NLP di berbagai tugas, menawarkan metrik online dan hanya memerlukan file definisi model Python untuk dikirimkan | Menuju NLP yang Efisien: Evaluasi Standar dan Dasar yang Kuat |
VLUE (Evaluasi Pemahaman Visi-Bahasa) | tolok ukur komprehensif untuk menilai model bahasa visi di berbagai tugas, menawarkan platform online untuk evaluasi dan perbandingan | VLUE: Tolok Ukur Multi-Tugas untuk Mengevaluasi Model Bahasa Visi |
Arena Jarak Jauh (LAG) | rangkaian benchmark yang mengevaluasi model Transformer yang efisien pada tugas-tugas konteks panjang, yang mencakup beragam modalitas dan jenis penalaran sekaligus memungkinkan evaluasi di bawah batasan sumber daya yang terkendali, menyoroti efisiensi dunia nyata | Arena Jarak Jauh: Tolok Ukur Transformer yang Efisien |
MS MARCO yang sadar efisiensi | tolok ukur pengambilan informasi MS MARCO yang ditingkatkan yang mengintegrasikan metrik efisiensi seperti latensi per kueri dan biaya serta akurasi, memfasilitasi evaluasi sistem IR yang komprehensif | Melampaui Akurasi Tugas Hilir untuk Tolok Ukur Pengambilan Informasi |
Referensi
Jika Anda merasa daftar makalah ini berguna dalam penelitian Anda, mohon pertimbangkan untuk mengutip:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}