Awesome Resource Efficient LLM Papers
1.0.0
これは、調査論文「Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models」の GitHub リポジトリです。
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | おおよその注意力 | シンプルな線形アテンション言語モデルは、リコールとスループットのトレードオフのバランスをとります | ArXiv |
2024年 | ハードウェアへの注意 | MobileLLM: オンデバイスのユースケース向けに 10 億単位のパラメータ言語モデルを最適化 | ArXiv |
2024年 | おおよその注意力 | LoMA: ロスレス圧縮メモリの注意 | ArXiv |
2024年 | おおよその注意力 | Two Stones Hit One Bird: より適切な長さの外挿のためのバイレベル位置エンコーディング | ICML |
2024年 | ハードウェアの最適化 | FlashAttention-2: より優れた並列処理と作業分割による迅速なアテンション | ICLR |
2023年 | ハードウェアの最適化 | Flashattention: io を認識した高速かつメモリ効率の高い正確なアテンション | NeurIPS |
2023年 | おおよその注意力 | KDEformer: カーネル密度推定によるトランスフォーマーの加速 | ICML |
2023年 | おおよその注意力 | Mega: 移動平均を備えたゲート型アテンション | ICLR |
2022年 | ハードウェアの最適化 | xFormers - トランスフォーマーの研究を加速するツールボックス | GitHub |
2021年 | おおよその注意力 | 効率的な注意: 線形の複雑さによる注意 | WACV |
2021年 | おおよその注意力 | アテンションフリーの変圧器 | ArXiv |
2021年 | おおよその注意力 | 自己注意には O(n^2) 個のメモリは必要ありません | ArXiv |
2021年 | ハードウェアの最適化 | LightSeq: トランスフォーマー用の高性能推論ライブラリ | NAACL |
2021年 | ハードウェアの最適化 | FasterTransformer: より高速なトランスフォーマー フレームワーク | GitHub |
2020年 | おおよその注意力 | トランスフォーマーは RNN です: 線形アテンションを備えた高速自己回帰トランスフォーマー | ICML |
2019年 | おおよその注意力 | リフォーマー: 効率的な変圧器 | ICLR |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | デコーダ | キャッシュは 1 回だけ: 言語モデルのデコーダ-デコーダ アーキテクチャ | ArXiv |
2024年 | ビットリニア層 | スケーラブルな MatMul フリー言語モデリング | ArXiv |
2023年 | RNNLM | RWKV: トランスフォーマー時代に向けた RNN の再発明 | EMNLP の調査結果 |
2023年 | MLP | 自動回帰次トークン予測子は普遍的な学習者です | ArXiv |
2023年 | 畳み込みLM | ハイエナ階層: より大規模な畳み込み言語モデルに向けて | ICML |
2023年 | 二次二次行列ベース | Monarch Mixer: シンプルな二次二次 GEMM ベースのアーキテクチャ | NeurIPS |
2023年 | 選択的状態空間モデル | Mamba: 選択的状態空間を使用した線形時間シーケンス モデリング | ArXiv |
2022年 | 専門家の混合 | スイッチトランスフォーマー: シンプルで効率的なスパース性による数兆パラメータモデルへの拡張 | JMLR |
2022年 | 専門家の混合 | GLaM: 専門家の混合による言語モデルの効率的なスケーリング | ICML |
2022年 | 専門家の混合 | 専門家による混合と専門家による選択によるルーティング | NeurIPS |
2022年 | 専門家の混合 | 専門家の混合による効率的な大規模言語モデリング | EMNLP |
2017年 | 専門家の混合 | 法外に大規模なニューラル ネットワーク: まばらにゲートされた専門家の混合層 | ICLR |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | モデルの並列性 | ProTrain: 適応型メモリ管理による効率的な LLM トレーニング | アルクシヴ |
2024年 | モデルの並列性 | MegaScale: 大規模な言語モデルのトレーニングを 10,000 GPU 以上に拡張 | アルクシヴ |
2023年 | データの並列処理 | Palm: パスウェイを使用した言語モデリングのスケーリング | ギットハブ |
2023年 | モデルの並列性 | Bpipe: 大規模な言語モデルをトレーニングするためのメモリバランスのとれたパイプライン並列処理 | JMLR |
2022年 | モデルの並列性 | Alpa: 分散ディープラーニングのためのオペレーター間およびオペレーター内の並列処理の自動化 | OSDI |
2021年 | データの並列処理 | FairScale: 高性能かつ大規模なトレーニングのための汎用モジュラー PyTorch ライブラリ | JMLR |
2020年 | データの並列処理 | ゼロ: 兆パラメータ モデルのトレーニングに向けたメモリの最適化 | IEEE SC20 |
2019年 | モデルの並列性 | GPipe: パイプライン並列処理を使用した巨大ニューラル ネットワークの効率的なトレーニング | NeurIPS |
2019年 | モデルの並列性 | Megatron-LM: モデル並列処理を使用した数十億のパラメーター言語モデルのトレーニング | アルクシヴ |
2019年 | モデルの並列性 | PipeDream: DNN トレーニング用の一般化されたパイプライン並列処理 | SOSP |
2018年 | モデルの並列性 | メッシュ テンソルフロー: スーパーコンピューターのための深層学習 | NeurIPS |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2022年 | 混合精度トレーニング | BLOOM: 176B パラメータのオープンアクセス多言語モデル | アルクシヴ |
2018年 | 混合精度トレーニング | Bert: 言語理解のための深い双方向トランスフォーマーの事前トレーニング | ACL |
2017年 | 混合精度トレーニング | 混合精度トレーニング | ICLR |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | サンプリングの重要性 | LISA: メモリ効率の高い大規模言語モデルの微調整のためのレイヤーごとの重要度サンプリング | アルクシヴ |
2023年 | 重要度サンプリングに関する調査 | 変圧器の効率的な訓練に関する調査 | IJCAI |
2023年 | サンプリングの重要性 | Data-Juicer: 大規模言語モデル用のワンストップ データ処理システム | アルクシヴ |
2023年 | サンプリングの重要性 | INGENIOUS: 言語モデルの効率的な事前トレーニングのための有益なデータ サブセットの使用 | EMNLP |
2023年 | サンプリングの重要性 | データコストを意識したトレーニングによる機械学習力場 | ICML |
2022年 | サンプリングの重要性 | ニューラル スケーリング則を超えて: データ プルーニングによるべき乗則スケーリングを超える | NeurIPS |
2021年 | サンプリングの重要性 | データダイエットにおけるディープラーニング: トレーニングの初期段階で重要な例を見つける | NeurIPS |
2018年 | サンプリングの重要性 | 堅牢な近似重要度サンプリングにより、深いモデルをより高速にトレーニング | NeurIPS |
2018年 | サンプリングの重要性 | すべてのサンプルが同じように作成されるわけではない: 重要度サンプリングを使用した深層学習 | ICML |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | データ拡張 | LLMRec: 推奨のためのグラフ拡張を備えた大規模言語モデル | WSDM |
2024年 | データの増強 | LLM-DA: 少数ショットの固有表現認識のための大規模言語モデルによるデータ拡張 | アルクシヴ |
2023年 | データの増強 | MixGen: 新しいマルチモーダル データ拡張 | WACV |
2023年 | データの増強 | データ効率の高い GAN トレーニングのための拡張を意識した自己監視 | NeurIPS |
2023年 | データの増強 | 潜在合成によるテキストデータの効率的な活用によるエンドツーエンドの音声処理の向上 | EMNLP |
2023年 | データの増強 | FaMeSumm: 医療要約の忠実性を調査し、改善する | EMNLP |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2023年 | トレーニングの目的 | 大規模言語モデルの課題と応用 | アルクシヴ |
2023年 | トレーニングの目的 | 事前トレーニングされた言語モデルを使用したオープン情報抽出のための効率的なデータ学習 | EMNLP |
2023年 | マスクされた言語イメージモデリング | スケーリング言語 - マスキングによる画像の事前トレーニング | CVPR |
2022年 | マスクされた画像モデリング | マスクされたオートエンコーダーはスケーラブルな視覚学習者です | CVPR |
2019年 | マスクされた言語モデリング | MASS: 言語生成のためのマスクされたシーケンスからシーケンスへの事前トレーニング | ICML |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | LoRAベースの微調整 | Dlora: 大規模な言語モデル向けの分散パラメータ効率の高い微調整ソリューション | アルクシヴ |
2024年 | LoRAベースの微調整 | SplitLoRA: 大規模な言語モデル向けの分割パラメータ効率的な微調整フレームワーク | アルクシヴ |
2024年 | LoRAベースの微調整 | LLM ベースのレコメンデーションのためのデータ効率の高い微調整 | シギル |
2024年 | LoRAベースの微調整 | MEFT: スパースアダプターによるメモリ効率の高い微調整 | ACL |
2023年 | LoRAベースの微調整 | DyLoRA: 動的検索不要の低ランク適応を使用した事前トレーニング済みモデルのパラメータ効率の高い調整 | EACL |
2022年 | マスキングベースの微調整 | サブネットワークを適応的に最適化することで、事前トレーニングされた言語モデルを効果的に微調整する | NeurIPS |
2021年 | マスキングベースの微調整 | BitFit: トランスフォーマーベースのマスクされた言語モデルのパラメーター効率の高いシンプルな微調整 | ACL |
2021年 | マスキングベースの微調整 | 大規模言語モデルで子供を育てる: 効果的で一般化可能な微調整に向けて | EMNLP |
2021年 | マスキングベースの微調整 | 勾配の分割による言語モデルの学習バイアスの解消 | ACL |
2019年 | マスキングベースの微調整 | SMART: 原則に基づいた正則化最適化による、事前トレーニングされた自然言語モデルの堅牢かつ効率的な微調整 | ACL |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | フルパラメータ微調整 | Hift: 階層型の完全パラメータ微調整戦略 | アルクシヴ |
2024年 | フルパラメータ微調整最適化の研究 | 大規模な言語モデルを微調整するための最適化に関する研究 | アルクシヴ |
2023年 | フルパラメータ微調整と LoRA ベース微調整の比較研究 | 大規模言語モデルに従った命令のための中国語命令データのフルパラメータと LoRA ベースの微調整の比較研究 | アルクシヴ |
2023年 | フルパラメータ微調整とパラメータ効率の高い微調整の比較研究 | パラメータ効率の高い手法と完全な微調整の比較: 多言語ニュース記事分類のケーススタディ | アルクシヴ |
2023年 | 限られたリソースでのフルパラメータの微調整 | リソースが限られた大規模な言語モデル向けの完全なパラメータ微調整 | アルクシヴ |
2023年 | メモリ効率の高い微調整 | Just Forward パスによる言語モデルの微調整 | NeurIPS |
2023年 | 医療用途向けのフルパラメータ微調整 | PMC-LLaMA: 医療用のオープンソース言語モデルの構築に向けて | アルクシヴ |
2022年 | フルパラメータ微調整の欠点 | 微調整により事前トレーニングされた機能が歪み、配布外のパフォーマンスが低下する可能性があります | ICLR |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | 非構造化プルーニング | SparseLLM: 事前トレーニング済み言語モデルのグローバル プルーニングに向けて | NeurIPS |
2024年 | 構造化された枝刈り | 複雑さによる困惑: 小さな参照モデルを使用した複雑さベースのデータ プルーニング | アルクシヴ |
2024年 | 構造化された枝刈り | BESA: ブロック単位のパラメーター効率の高いスパース性割り当てによる大規模な言語モデルのプルーニング | アルクシヴ |
2024年 | 構造化された枝刈り | ShortGPT: 大規模な言語モデルのレイヤーは予想以上に冗長です | アルクシヴ |
2024年 | 構造化された枝刈り | NutePrune: 大規模な言語モデルに対する多数の教師による効率的なプログレッシブ プルーニング | アルクシヴ |
2024年 | 構造化された枝刈り | SliceGPT: 行と列を削除して大規模な言語モデルを圧縮する | ICLR |
2024年 | 非構造化プルーニング | トレーニング不要の動的スパース: スパース LLM のトレーニング不要の微調整 | ICLR |
2024年 | 構造化された枝刈り | プラグアンドプレイ: 大規模な言語モデルの効率的なトレーニング後の枝刈り方法 | ICLR |
2023年 | 非構造化プルーニング | 大規模言語モデルに対するワンショットの感度を意識した混合スパース性枝刈り | アルクシヴ |
2023年 | 非構造化プルーニング | SparseGPT: 大規模な言語モデルをワンショットで正確にプルーニングできる | ICML |
2023年 | 非構造化プルーニング | 大規模な言語モデルに対するシンプルで効果的な枝刈りアプローチ | ICLR |
2023年 | 非構造化プルーニング | AccelTran: トランスフォーマーを使用した動的推論のためのスパース認識アクセラレータ | TCAD |
2023年 | 構造化された枝刈り | LLM-Pruner: 大規模言語モデルの構造的枝刈りについて | NeurIPS |
2023年 | 構造化された枝刈り | LoSparse: 低ランクのスパース近似に基づく大規模言語モデルの構造化圧縮 | ICML |
2023年 | 構造化された枝刈り | 効率的な生成事前トレーニング言語モデルのための構造化プルーニング | ACL |
2023年 | 構造化された枝刈り | ZipLM: 言語モデルの推論を意識した構造化枝刈り | NeurIPS |
2023年 | コンテキストに応じた枝刈り | Deja Vu: 推論時の効率的な LLM のコンテキストのスパース性 | ICML |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | 重みの量子化 | 量子化された大規模言語モデルの評価 | アルクシヴ |
2024年 | 重みの量子化 | I-LLM: 完全量子化された低ビット大規模言語モデルの効率的な整数のみの推論 | アルクシヴ |
2024年 | 重みの量子化 | ABQ-LLM: 大規模言語モデルの任意ビット量子化推論の高速化 | アルクシヴ |
2024年 | ウェイトアクティベーション共量子化 | 高度な外れ値管理と LLM の効率的な量子化のための回転と置換 | NeurIPS |
2024年 | 重みの量子化 | OmniQuant: 大規模言語モデル向けの全方向的にキャリブレーションされた量子化 | ICLR |
2023年 | 重みの量子化 | Flexround: トレーニング後の量子化のための要素ごとの除算に基づいた学習可能な丸め | ICML |
2023年 | 重みの量子化 | Outlier Suppression+: 等価かつ最適なシフトとスケーリングによる大規模言語モデルの正確な量子化 | EMNLP |
2023年 | 重みの量子化 | OWQ: 大規模な言語モデルの効率的な微調整と推論のための異常値を認識した重み量子化 | あああ |
2023年 | 重みの量子化 | Gptq: 生成的な事前トレーニング済み変換器の正確なポストトレーニング量子化 | ICLR |
2023年 | 重みの量子化 | 効率的なトランスフォーマートレーニングのための動的スタッシング量子化 | EMNLP |
2023年 | 重みの量子化 | 自然言語理解のための量子化対応およびテンソル圧縮されたトランスフォーマーのトレーニング | スピーチ間 |
2023年 | 重みの量子化 | QLoRA: 量子化 LLM の効率的な微調整 | NeurIPS |
2023年 | 重みの量子化 | 大規模な視覚言語モデルの安定した低精度トレーニング | NeurIPS |
2023年 | 重みの量子化 | Prequant: 事前トレーニングされた言語モデルのためのタスクに依存しない量子化アプローチ | ACL |
2023年 | 重みの量子化 | Olive: ハードウェアに優しい外れ値ビクティムペア量子化による大規模言語モデルの高速化 | イスカ |
2023年 | 重みの量子化 | Awq: LLM 圧縮とアクセラレーションのためのアクティベーション対応重み量子化 | arXiv |
2023年 | 重みの量子化 | Spqr: ほぼ損失のない llm 重み圧縮のためのスパース量子化表現 | arXiv |
2023年 | 重みの量子化 | SqueezeLLM: 密量子化と疎量子化 | arXiv |
2023年 | 重みの量子化 | LLM-QAT: 大規模言語モデル向けのデータフリー量子化対応トレーニング | arXiv |
2022年 | 活性化量子化 | Gact: 汎用ネットワーク アーキテクチャ向けのアクティベーション圧縮トレーニング | ICML |
2022年 | 固定小数点量子化 | GPU に優しいスパース性と量子化を備えたブースト ビジョン トランスフォーマー | ACL |
2021年 | 活性化量子化 | Ac-gc: 収束が保証された非可逆アクティベーション圧縮 | NeurIPS |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | スコアベースのトークン削除 | 効率的な LLM 生成のための即時適応型構造化プルーニング | コルム |
2024年 | スコアベースのトークン削除 | LazyLLM: 効率的な長いコンテキスト LLM 推論のための動的トークン プルーニング | アルクシヴ |
2024年 | 学習ベースのトークン削除 | LLMLingua-2: 効率的かつ忠実なタスクに依存しない即時圧縮のためのデータ蒸留 | ACL |
2024年 | 学習ベースのトークン削除 | オンライン言語モデル対話用の圧縮コンテキスト メモリ | ICLR |
2023年 | スコアベースのトークン削除 | 効率的なトランスフォーマー推論のための制約認識およびランキング抽出されたトークン プルーニング | KDD |
2023年 | 学習ベースのトークン削除 | PuMer: 効率的なビジョン言語モデルのためのトークンのプルーニングとマージ | ACL |
2023年 | 学習ベースのトークン削除 | Infor-Coef: コンパクトで効率的な言語モデルのための情報ボトルネックベースの動的トークン ダウンサンプリング | arXiv |
2023年 | 学習ベースのトークン削除 | SmartTrim: 効率的な視覚言語モデルのための適応型トークンとパラメーター プルーニング | arXiv |
2022年 | 学習ベースのトークン削除 | Transkimmer: Transformer はレイヤーごとのスキミングを学習します | ACL |
2022年 | スコアベースのトークン削除 | トランスフォーマーのトークンプルーニングを学習しました | KDD |
2021年 | 学習ベースのトークン削除 | TR-BERT: BERT 推論を高速化するための動的トークン削減 | NAACL |
2021年 | スコアベースのトークン削除 | カスケード トークンとヘッド プルーニングを備えた効率的なスパース アテンション アーキテクチャ | HPCA |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | ハードウェアの最適化 | LUT TENSOR コア: ルックアップ テーブルにより、効率的な低ビット LLM 推論の高速化が可能になります | アルクシヴ |
2023年 | ハードウェアのオフロード | FlexGen: 単一 GPU による大規模言語モデルの高スループット生成推論 | PMLR |
2023年 | ハードウェアのオフロード | 大規模な言語モデルに対する高速分散推論の提供 | arXiv |
2022年 | 協調推論 | Petals: 大規模モデルの共同推論と微調整 | arXiv |
2022年 | ハードウェアのオフロード | DeepSpeed 推論: 前例のない規模でのトランスフォーマー モデルの効率的な推論を可能にする | IEEE SC22 |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2024年 | エッジデバイス | MobileLLM: オンデバイスのユースケース向けに 10 億単位のパラメータ言語モデルを最適化 | ICML |
2024年 | エッジデバイス | EdgeShard: 協調エッジ コンピューティングによる効率的な LLM 推論 | アルクシヴ |
2024年 | エッジデバイス | Any-Precision LLM: 複数の異なるサイズの LLM の低コスト導入 | ICML |
2024年 | エッジデバイス | LLM 推論のパフォーマンスを向上させる画期的なメモリ ソリューション | IEEEマイクロ |
2024年 | エッジデバイス | MELTing point: 言語変換器のモバイル評価 | モビコム |
2024年 | エッジデバイス | モバイルデバイス上のシステムサービスとしてのLLM | アルクシヴ |
2024年 | エッジデバイス | LocMoE: 大規模な言語モデルのトレーニングのための低オーバーヘッドの MoE | アルクシヴ |
2024年 | エッジデバイス | Jetmoe: 100 万ドルで llama2 のパフォーマンスを達成 | アルクシヴ |
2023年 | エッジデバイス | リソースに制約のあるデバイス向けのプライベートフェデレーテッドラーニングによる大語彙神経言語モデルのトレーニング | ICASSP |
2023年 | エッジデバイス | エッジでの LLM のフェデレーテッド微調整: 良いもの、悪いもの、醜いもの | arXiv |
2023年 | 図書館 | Colossal-AI: 大規模な並列トレーニングのための統合ディープラーニング システム | ICPP |
2023年 | 図書館 | GPT-NeoX-20B: オープンソースの自己回帰言語モデル | ACL |
2023年 | エッジデバイス | 大規模言語モデルがコネクテッド インテリジェンスを実現する自律型エッジ AI を強化 | arXiv |
2022年 | 図書館 | DeepSpeed 推論: 前例のない規模でのトランスフォーマー モデルの効率的な推論を可能にする | IEEE SC22 |
2022年 | 図書館 | Alpa: 分散ディープラーニングのためのオペレーター間およびオペレーター内の並列処理の自動化 | OSDI |
2022年 | エッジデバイス | EdgeFormer: オンデバイス Seq2seq 生成のためのパラメータ効率の高いトランスフォーマー | arXiv |
2022年 | エッジデバイス | ProFormer: オンデバイス LSH プロジェクションベースのトランスフォーマーに向けて | ACL |
2021年 | エッジデバイス | BERT の安価な操作でより多くの機能を生成 | ACL |
2021年 | エッジデバイス | SqueezeBERT: コンピューター ビジョンは、効率的なニューラル ネットワークについて NLP に何を教えることができますか? | サステNLP |
2020年 | エッジデバイス | 長距離・短距離対応のライトトランスフォーマー | arXiv |
2019年 | 図書館 | Megatron-LM: モデル並列処理を使用した数十億のパラメーター言語モデルのトレーニング | IEEE SC22 |
2018年 | 図書館 | Mesh-TensorFlow: スーパーコンピューターのための深層学習 | NeurIPS |
日付 | キーワード | 紙 | 会場 |
---|---|---|---|
2023年 | その他のシステム | Tabi: 大規模な言語モデルのための効率的なマルチレベル推論システム | ユーロシス |
2023年 | その他のシステム | 大規模な言語モデルの記憶評価のための大規模な準重複シーケンス検索 | PACMMOD |
メトリック | 説明 | 使用例 |
---|---|---|
FLOP (浮動小数点演算) | 浮動小数点数の算術演算の数 | [フロップ] |
トレーニング時間 | トレーニングに必要な合計期間。通常は壁時計の分、時間、または日で測定されます。 | [分、日] [時間] |
推論時間/レイテンシ | 入力を受信してから出力を生成するのに必要な平均時間。通常はミリ秒または秒単位の実時間または CPU/GPU/TPU クロック時間で測定されます。 | [エンドツーエンドの遅延 (秒単位)] [次のトークン生成の待ち時間 (ミリ秒)] |
スループット | 出力トークンの生成またはタスクの完了速度。通常は 1 秒あたりのトークン数 (TPS) または 1 秒あたりのクエリ数 (QPS) で測定されます。 | [トークン/秒] [クエリ/秒] |
速度向上率 | ベースラインモデルと比較した推論速度の向上 | 【推論時間の高速化】 【スループット高速化】 |
メトリック | 説明 | 使用例 |
---|---|---|
パラメータの数 | LLM のニューラル ネットワーク内の調整可能な変数の数 | [パラメータの数] |
モデルサイズ | モデル全体を保管するために必要な保管スペース | [ピーク時のメモリ使用量 (GB)] |
メトリック | 説明 | 使用例 |
---|---|---|
エネルギー消費量 | LLM のライフサイクル中に使用される電力 | [kWh] |
炭素排出量 | モデルのエネルギー使用に伴う温室効果ガスの排出量 | [kgCO2当量] |
以下は、エネルギー消費と炭素排出量をリアルタイムで追跡するために設計された利用可能なソフトウェア パッケージです。
- コードカーボン
- カーボントラッカー
- 実験インパクトトラッカー
また、実際のトレーニングやトレーニングの前にエネルギー使用量と二酸化炭素排出量を予測するには、以下の情報も役立ちます。
- ML CO2 への影響
- LLMカーボン
メトリック | 説明 | 使用例 |
---|---|---|
パラメータあたりの金額 | パラメータの数による LLM のトレーニング (または実行) の総コスト |
メトリック | 説明 | 使用例 |
---|---|---|
通信量 | 特定の LLM 実行またはトレーニング実行中にネットワーク上で送信されるデータの総量 | 【TB時の通信量】 |
メトリック | 説明 | 使用例 |
---|---|---|
圧縮率 | 元のモデルと比較した圧縮モデルのサイズの縮小 | [圧縮率] [ウェイトの残りの割合] |
忠誠心/忠誠心 | 予測の一貫性と予測確率分布の整合性の両方に関する教師モデルと学生モデルの類似性 | [忠誠心] [忠実度] |
堅牢性 | 敵対的な攻撃に対する耐性。入力をわずかに変更すると、モデルの出力が操作される可能性があります。 | [攻撃後の精度、クエリ数] |
パレート最適性 | さまざまな競合要素間の最適なトレードオフ | 【パレートフロンティア(コストと精度)】 【パレートフロンティア(パフォーマンスとFLOP)】 |
ベンチマーク | 説明 | 紙 |
---|---|---|
一般的な NLP ベンチマーク | GLUE、SuperGLUE、WMT、SQuAD などの一般的な NLP ベンチマークの広範なコレクション。 | 大規模言語モデルの包括的な概要 |
ダイナボード | クラウドで NLP モデルを評価するためのオープンソース プラットフォームで、カスタマイズ可能な Dynascore によるリアルタイムの対話とモデル品質の総合的な評価を提供します。 | Dynaboard: 総合的な次世代ベンチマークのためのサービスとしての評価プラットフォーム |
効率的なQA | NeurIPS 2020 でのオープンドメインの質問応答 (QA) チャレンジ。正確でメモリ効率の高い QA システムの構築に焦点を当てています。 | NeurIPS 2020 EfficientQA コンペティション: システム、分析、得られた教訓 |
SustaiNLP 2020 共有タスク | SuperGLUE メトリクスを使用して 8 つの NLU タスクにわたるパフォーマンスを評価し、推論中のエネルギー消費を評価することにより、エネルギー効率の高い NLP モデルの開発に挑戦します。 | SustaiNLP 2020 共有タスクの概要 |
ELUE (効率的な言語理解評価) | さまざまなタスクにわたる NLP モデルの効率を評価するためのベンチマーク プラットフォームで、オンライン メトリクスを提供し、提出には Python モデル定義ファイルのみが必要です | 効率的な NLP に向けて: 標準的な評価と強力なベースライン |
VLUE(視覚言語理解評価) | 複数のタスクにわたって視覚言語モデルを評価するための包括的なベンチマークであり、評価と比較のためのオンライン プラットフォームを提供します | VLUE: 視覚言語モデルを評価するためのマルチタスク ベンチマーク |
ロングレンジアリーナ (LAG) | 制御されたリソース制約下での評価を可能にしながら、長いコンテキストのタスクで効率的な Transformer モデルを評価するベンチマーク スイートであり、多様なモダリティと推論タイプにまたがり、現実世界の効率性を強調します | 長距離アリーナ: 効率的な変圧器のベンチマーク |
効率を重視したMS MARCO | 強化された MS MARCO 情報検索ベンチマーク。クエリごとのレイテンシやコストなどの効率指標と精度を統合し、IR システムの包括的な評価を容易にします。 | 情報検索ベンチマークにおける下流タスクの精度を超えて |
この論文リストが研究に役立つと思われる場合は、以下を引用することを検討してください。
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}