Awesome Resource Efficient LLM Papers
1.0.0
这是我们的调查论文《超越效率:资源高效大型语言模型的系统调查》的 GitHub 存储库。
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 大约关注度 | 简单的线性注意力语言模型平衡召回率与吞吐量的权衡 | ArXiv |
2024年 | 硬件注意 | MobileLLM:针对设备上用例优化数十亿参数语言模型 | ArXiv |
2024年 | 大约关注度 | LoMA:无损压缩内存注意力 | ArXiv |
2024年 | 大约关注度 | 两块石头击中一只鸟:双层位置编码以实现更好的长度外推 | ICML |
2024年 | 硬件优化 | FlashAttention-2:更快的注意力以及更好的并行性和工作分区 | ICLR |
2023年 | 硬件优化 | Flashattention:具有 io 意识的快速、内存高效的精确注意力 | 神经IPS |
2023年 | 大约关注度 | KDEformer:通过核密度估计加速 Transformer | ICML |
2023年 | 大约关注度 | 巨型:移动平均线装备了门控注意力 | ICLR |
2022年 | 硬件优化 | xFormers - 加速 Transformers 研究的工具箱 | GitHub |
2021年 | 大约关注度 | 高效注意力:具有线性复杂度的注意力 | WACV |
2021年 | 大约关注度 | 无需关注的变压器 | ArXiv |
2021年 | 大约关注度 | 自注意力不需要 O(n^2) 内存 | ArXiv |
2021年 | 硬件优化 | LightSeq:Transformers 的高性能推理库 | 全国AACL |
2021年 | 硬件优化 | FasterTransformer:更快的变压器框架 | GitHub |
2020年 | 大约关注度 | Transformer 是 RNN:具有线性注意力的快速自回归 Transformer | ICML |
2019年 | 大约关注度 | 改革者:高效的变压器 | ICLR |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 解码器 | 您只需缓存一次:语言模型的解码器-解码器架构 | ArXiv |
2024年 | 位线性层 | 可扩展的 MatMul-free 语言建模 | ArXiv |
2023年 | 循环神经网络LM | RWKV:为 Transformer 时代重塑 RNN | EMNLP-调查结果 |
2023年 | 多层线性规划 | 自回归下一个标记预测器是通用学习器 | ArXiv |
2023年 | 卷积LM | 鬣狗层次结构:迈向更大的卷积语言模型 | ICML |
2023年 | 基于次二次矩阵 | Monarch Mixer:基于简单次二次 GEMM 的架构 | 神经IPS |
2023年 | 选择性状态空间模型 | Mamba:具有选择性状态空间的线性时间序列建模 | ArXiv |
2022年 | 专家荟萃 | 开关变压器:通过简单高效的稀疏性扩展到万亿参数模型 | JMLR |
2022年 | 专家荟萃 | GLaM:利用混合专家有效扩展语言模型 | ICML |
2022年 | 专家荟萃 | 专家混合与专家选择路由 | 神经IPS |
2022年 | 专家荟萃 | 专家混合的高效大规模语言建模 | EMNLP |
2017年 | 专家荟萃 | 极其庞大的神经网络:稀疏门控专家混合层 | ICLR |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 模型并行性 | ProTrain:通过自适应内存管理进行高效的法学硕士培训 | Arxiv |
2024年 | 模型并行性 | MegaScale:将大型语言模型训练扩展到超过 10,000 个 GPU | Arxiv |
2023年 | 数据并行性 | Palm:通过路径扩展语言建模 | 吉图布 |
2023年 | 模型并行性 | Bpipe:用于训练大型语言模型的内存平衡管道并行性 | JMLR |
2022年 | 模型并行性 | Alpa:分布式深度学习的算子间和算子内并行自动化 | 开放式数据接口 |
2021年 | 数据并行性 | FairScale:用于高性能和大规模训练的通用模块化 PyTorch 库 | JMLR |
2020年 | 数据并行性 | 零:训练万亿参数模型的内存优化 | IEEE SC20 |
2019年 | 模型并行性 | GPipe:使用管道并行性对巨型神经网络进行高效训练 | 神经IPS |
2019年 | 模型并行性 | Megatron-LM:使用模型并行性训练数十亿参数语言模型 | Arxiv |
2019年 | 模型并行性 | PipeDream:用于 DNN 训练的广义管道并行性 | SOSP |
2018年 | 模型并行性 | Mesh-tensorflow:超级计算机的深度学习 | 神经IPS |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2022年 | 混合精准训练 | BLOOM:176B 参数的开放访问多语言语言模型 | Arxiv |
2018年 | 混合精准训练 | Bert:用于语言理解的深度双向变压器的预训练 | 前交叉韧带 |
2017年 | 混合精准训练 | 混合精准训练 | ICLR |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 重要性抽样 | LISA:用于内存高效大型语言模型微调的分层重要性采样 | Arxiv |
2023年 | 重要性抽样调查 | 变压器高效培训调查 | IJCAI |
2023年 | 重要性抽样 | Data-Juicer:大型语言模型的一站式数据处理系统 | Arxiv |
2023年 | 重要性抽样 | INGENIOUS:使用信息数据子集进行语言模型的高效预训练 | EMNLP |
2023年 | 重要性抽样 | 具有数据成本意识培训的机器学习力场 | ICML |
2022年 | 重要性抽样 | 超越神经缩放定律:通过数据修剪击败幂律缩放 | 神经IPS |
2021年 | 重要性抽样 | 基于数据的深度学习:在训练早期寻找重要的例子 | 神经IPS |
2018年 | 重要性抽样 | 通过稳健的近似重要性采样更快地训练深度模型 | 神经IPS |
2018年 | 重要性抽样 | 并非所有样本都是一样的:具有重要采样的深度学习 | ICML |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 数据增强 | LLMRec:具有图增强推荐功能的大型语言模型 | WSDM |
2024年 | 数据增强 | LLM-DA:通过大型语言模型进行数据增强,用于少样本命名实体识别 | Arxiv |
2023年 | 数据增强 | MixGen:一种新的多模态数据增强 | WACV |
2023年 | 数据增强 | 用于数据高效 GAN 训练的增强感知自我监督 | 神经IPS |
2023年 | 数据增强 | 通过有效的文本数据利用和潜在合成来改进端到端语音处理 | EMNLP |
2023年 | 数据增强 | FaMeSumm:研究和提高医学总结的可信度 | EMNLP |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2023年 | 培训目标 | 大型语言模型的挑战和应用 | Arxiv |
2023年 | 培训目标 | 使用预训练语言模型进行开放信息提取的高效数据学习 | EMNLP |
2023年 | 蒙面语言-图像建模 | 通过掩蔽缩放语言图像预训练 | CVPR |
2022年 | 蒙版图像建模 | 蒙面自动编码器是可扩展的视觉学习器 | CVPR |
2019年 | 掩码语言建模 | MASS:用于语言生成的掩码序列到序列预训练 | ICML |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 基于LoRA的微调 | Dlora:大型语言模型的分布式参数高效微调解决方案 | Arxiv |
2024年 | 基于LoRA的微调 | SplitLoRA:大型语言模型的分割参数高效微调框架 | Arxiv |
2024年 | 基于LoRA的微调 | 基于 LLM 推荐的数据高效微调 | 西吉尔 |
2024年 | 基于LoRA的微调 | MEFT:通过稀疏适配器进行内存高效微调 | 前交叉韧带 |
2023年 | 基于LoRA的微调 | DyLoRA:使用动态无搜索低秩自适应对预训练模型进行参数高效调整 | 欧洲联盟 |
2022年 | 基于掩蔽的微调 | 通过自适应地优化子网络来有效地微调预训练的语言模型 | 神经IPS |
2021年 | 基于掩蔽的微调 | BitFit:基于 Transformer 的屏蔽语言模型的简单参数高效微调 | 前交叉韧带 |
2021年 | 基于掩蔽的微调 | 在大语言模型中抚养孩子:迈向有效且可推广的微调 | EMNLP |
2021年 | 基于掩蔽的微调 | 通过划分梯度消除语言模型中的偏见 | 前交叉韧带 |
2019年 | 基于掩蔽的微调 | SMART:通过有原则的正则化优化对预训练的自然语言模型进行稳健且高效的微调 | 前交叉韧带 |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 全参数微调 | Hift:分层全参数微调策略 | Arxiv |
2024年 | 全参数微调优化研究 | 微调大型语言模型的优化研究 | Arxiv |
2023年 | 全参数微调与基于 LoRA 的微调对比研究 | 基于大语言模型的中文教学数据全参数与基于LoRA微调的对比研究 | Arxiv |
2023年 | 全参数与参数高效微调的对比研究 | 参数有效技术与完全微调的比较:多语言新闻文章分类案例研究 | Arxiv |
2023年 | 资源有限的全参数微调 | 资源有限的大型语言模型全参数微调 | Arxiv |
2023年 | 内存效率微调 | 仅通过前向传递来微调语言模型 | 神经IPS |
2023年 | 医学应用的全参数微调 | PMC-LLaMA:构建医学开源语言模型 | Arxiv |
2022年 | 全参数微调的缺点 | 微调可能会扭曲预训练特征并导致分布外表现不佳 | ICLR |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 非结构化修剪 | SparseLLM:针对预训练语言模型进行全局修剪 | 神经IPS |
2024年 | 结构化修剪 | 被困惑所困扰:使用小参考模型进行基于困惑的数据修剪 | Arxiv |
2024年 | 结构化修剪 | BESA:通过分块参数高效稀疏分配修剪大型语言模型 | Arxiv |
2024年 | 结构化修剪 | ShortGPT:大型语言模型中的层比您预期的更加冗余 | Arxiv |
2024年 | 结构化修剪 | NutePrune:与众多教师一起对大型语言模型进行高效的渐进剪枝 | Arxiv |
2024年 | 结构化修剪 | SliceGPT:通过删除行和列来压缩大型语言模型 | ICLR |
2024年 | 非结构化修剪 | 动态稀疏无训练:稀疏法学硕士的免训练微调 | ICLR |
2024年 | 结构化修剪 | 即插即用:一种高效的大型语言模型训练后剪枝方法 | ICLR |
2023年 | 非结构化修剪 | 大型语言模型的一次性敏感度感知混合稀疏剪枝 | Arxiv |
2023年 | 非结构化修剪 | SparseGPT:海量语言模型可一次性精确剪枝 | ICML |
2023年 | 非结构化修剪 | 一种简单有效的大型语言模型修剪方法 | ICLR |
2023年 | 非结构化修剪 | AccelTran:用于使用 Transformer 进行动态推理的稀疏感知加速器 | 计算机辅助设计 |
2023年 | 结构化修剪 | LLM-Pruner:论大语言模型的结构剪枝 | 神经IPS |
2023年 | 结构化修剪 | LoSparse:基于低秩和稀疏近似的大型语言模型的结构化压缩 | ICML |
2023年 | 结构化修剪 | 用于高效生成预训练语言模型的结构化剪枝 | 前交叉韧带 |
2023年 | 结构化修剪 | ZipLM:语言模型的推理感知结构化修剪 | 神经IPS |
2023年 | 上下文剪枝 | Deja Vu:推理时高效法学硕士的上下文稀疏性 | ICML |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 权重量化 | 评估量化大型语言模型 | Arxiv |
2024年 | 权重量化 | I-LLM:全量化低位大型语言模型的高效纯整数推理 | Arxiv |
2024年 | 权重量化 | ABQ-LLM:大型语言模型的任意位量化推理加速 | Arxiv |
2024年 | 权重激活共量化 | 用于高级离群值管理和法学硕士高效量化的旋转和排列 | 神经IPS |
2024年 | 权重量化 | OmniQuant:大型语言模型的全方位校准量化 | ICLR |
2023年 | 权重量化 | Flexround:基于元素划分的可学习舍入,用于训练后量化 | ICML |
2023年 | 权重量化 | 异常值抑制+:通过等效且最优的移位和缩放对大型语言模型进行精确量化 | EMNLP |
2023年 | 权重量化 | OWQ:异常值感知权重量化,用于大型语言模型的高效微调和推理 | AAAI |
2023年 | 权重量化 | Gptq:生成预训练 Transformer 的准确训练后量化 | ICLR |
2023年 | 权重量化 | 用于高效变压器训练的动态存储量化 | EMNLP |
2023年 | 权重量化 | 用于自然语言理解的 Transformer 的量化感知和张量压缩训练 | 语音间 |
2023年 | 权重量化 | QLoRA:量化 LLM 的高效微调 | 神经IPS |
2023年 | 权重量化 | 大规模视觉语言模型的稳定低精度训练 | 神经IPS |
2023年 | 权重量化 | Prequant:用于预训练语言模型的与任务无关的量化方法 | 前交叉韧带 |
2023年 | 权重量化 | Olive:通过硬件友好的离群受害者对量化加速大型语言模型 | 伊斯卡 |
2023年 | 权重量化 | Awq:用于 llm 压缩和加速的激活感知权重量化 | arXiv |
2023年 | 权重量化 | Spqr:近无损 llm 权重压缩的稀疏量化表示 | arXiv |
2023年 | 权重量化 | SqueezeLLM:密集和稀疏量化 | arXiv |
2023年 | 权重量化 | LLM-QAT:大型语言模型的无数据量化感知训练 | arXiv |
2022年 | 激活量化 | Gact:通用网络架构的激活压缩训练 | ICML |
2022年 | 定点量化 | 具有 GPU 友好的稀疏性和量化功能的 Boost Vision Transformer | 前交叉韧带 |
2021年 | 激活量化 | Ac-gc:有保证收敛的有损激活压缩 | 神经IPS |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 基于分数的标记去除 | 快速自适应结构化修剪以高效生成 LLM | 科尔姆 |
2024年 | 基于分数的标记去除 | LazyLLM:动态令牌修剪,实现高效的长上下文 LLM 推理 | Arxiv |
2024年 | 基于学习的标记去除 | LLMLingua-2:数据提炼,实现高效且可靠的任务无关即时压缩 | 前交叉韧带 |
2024年 | 基于学习的标记去除 | 用于在线语言模型交互的压缩上下文记忆 | ICLR |
2023年 | 基于分数的标记去除 | 用于高效 Transformer 推理的约束感知和排名蒸馏令牌修剪 | 凯德 |
2023年 | 基于学习的标记去除 | PuMer:修剪和合并令牌以实现高效的视觉语言模型 | 前交叉韧带 |
2023年 | 基于学习的标记去除 | Infor-Coef:基于信息瓶颈的动态令牌下采样,实现紧凑高效的语言模型 | arXiv |
2023年 | 基于学习的标记去除 | SmartTrim:用于高效视觉语言模型的自适应标记和参数修剪 | arXiv |
2022年 | 基于学习的标记去除 | Transkimmer:Transformer 学会逐层撇去 | 前交叉韧带 |
2022年 | 基于分数的标记去除 | 学习 Transformer 的令牌修剪 | 凯德 |
2021年 | 基于学习的标记去除 | TR-BERT:用于加速 BERT 推理的动态令牌缩减 | 全国AACL |
2021年 | 基于分数的标记去除 | 具有级联令牌和头部修剪的高效稀疏注意力架构 | HPCA |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 硬件优化 | LUT TENSOR CORE:查找表可实现高效的低位 LLM 推理加速 | Arxiv |
2023年 | 硬件卸载 | FlexGen:使用单个 GPU 进行大型语言模型的高吞吐量生成推理 | PMLR |
2023年 | 硬件卸载 | 为大型语言模型提供快速分布式推理服务 | arXiv |
2022年 | 协同推理 | Petals:大型模型的协同推理和微调 | arXiv |
2022年 | 硬件卸载 | DeepSpeed Inference:以前所未有的规模实现变压器模型的高效推理 | IEEE SC22 |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2024年 | 边缘设备 | MobileLLM:针对设备上用例优化数十亿参数语言模型 | ICML |
2024年 | 边缘设备 | EdgeShard:通过协作边缘计算进行高效的 LLM 推理 | Arxiv |
2024年 | 边缘设备 | 任意精度 LLM:低成本部署多个不同规模的 LLM | ICML |
2024年 | 边缘设备 | 用于提高 llm 推理性能的突破性内存解决方案 | IEEE微 |
2024年 | 边缘设备 | MELTing point:语言转换器的移动评估 | 移动通讯公司 |
2024年 | 边缘设备 | LLM 作为移动设备上的系统服务 | Arxiv |
2024年 | 边缘设备 | LocMoE:用于大型语言模型训练的低开销 MoE | Arxiv |
2024年 | 边缘设备 | Jetmoe:以 10 万美元达到 llama2 性能 | Arxiv |
2023年 | 边缘设备 | 通过私有联合学习为资源受限设备训练大词汇量神经语言模型 | ICASSP |
2023年 | 边缘设备 | 边缘法学硕士的联合微调:好的、坏的、丑陋的 | arXiv |
2023年 | 图书馆 | Colossal-AI:用于大规模并行训练的统一深度学习系统 | ICPP |
2023年 | 图书馆 | GPT-NeoX-20B:开源自回归语言模型 | 前交叉韧带 |
2023年 | 边缘设备 | 大型语言模型支持自主边缘 AI 实现互联智能 | arXiv |
2022年 | 图书馆 | DeepSpeed Inference:以前所未有的规模实现变压器模型的高效推理 | IEEE SC22 |
2022年 | 图书馆 | Alpa:分布式深度学习的算子间和算子内并行自动化 | 开放式数据接口 |
2022年 | 边缘设备 | EdgeFormer:用于设备上 Seq2seq 生成的参数高效转换器 | arXiv |
2022年 | 边缘设备 | ProFormer:迈向设备上基于 LSH 投影的变压器 | 前交叉韧带 |
2021年 | 边缘设备 | 通过廉价的操作为 BERT 生成更多特征 | 前交叉韧带 |
2021年 | 边缘设备 | SqueezeBERT:计算机视觉可以教授 NLP 哪些关于高效神经网络的知识? | 维持NLP |
2020年 | 边缘设备 | 具有长短程注意力的 Lite Transformer | arXiv |
2019年 | 图书馆 | Megatron-LM:使用模型并行性训练数十亿参数语言模型 | IEEE SC22 |
2018年 | 图书馆 | Mesh-TensorFlow:超级计算机的深度学习 | 神经IPS |
日期 | 关键词 | 纸 | 场地 |
---|---|---|---|
2023年 | 其他系统 | Tabi:大型语言模型的高效多级推理系统 | 欧洲系统公司 |
2023年 | 其他系统 | 用于大型语言模型记忆评估的大规模近似重复序列搜索 | PACMMOD |
公制 | 描述 | 用法示例 |
---|---|---|
FLOP(浮点运算) | 浮点数算术运算的次数 | [失败次数] |
训练时间 | 培训所需的总持续时间,通常以挂钟分钟、小时或天来衡量 | [分钟、天] [时间] |
推理时间/延迟 | 接收输入后生成输出所需的平均时间,通常以挂钟时间或 CPU/GPU/TPU 时钟时间(以毫秒或秒为单位)来衡量 | [端到端延迟(以秒为单位)] [下一个令牌生成延迟(以毫秒为单位)] |
吞吐量 | 输出令牌生成或任务完成的速率,通常以每秒令牌数 (TPS) 或每秒查询数 (QPS) 来衡量 | [令牌/秒] [查询/秒] |
加速比 | 与基线模型相比,推理速度有所提高 | [推理时间加速] [吞吐量加速] |
公制 | 描述 | 用法示例 |
---|---|---|
参数数量 | LLM神经网络中可调节变量的数量 | [参数数量] |
型号尺寸 | 存储整个模型所需的存储空间 | [峰值内存使用量(GB)] |
公制 | 描述 | 用法示例 |
---|---|---|
能源消耗 | LLM 生命周期中使用的电力 | [千瓦时] |
碳排放 | 与模型能源使用相关的温室气体排放 | [千克二氧化碳当量] |
以下是专为实时跟踪能源消耗和碳排放而设计的可用软件包。
- 代码碳
- 碳追踪器
- 实验影响追踪器
您可能还会发现以下内容有助于在实际训练或之前预测能源使用量和碳足迹
- ML CO2 影响
- 法学硕士碳
公制 | 描述 | 用法示例 |
---|---|---|
每个参数的美元 | 按参数数量计算的训练(或运行)LLM 的总成本 |
公制 | 描述 | 用法示例 |
---|---|---|
通讯量 | 在特定的 LLM 执行或训练运行期间通过网络传输的数据总量 | [通信量(TB)] |
公制 | 描述 | 用法示例 |
---|---|---|
压缩比 | 与原始模型相比,压缩模型的尺寸减小 | [压缩率] [剩余重量百分比] |
忠诚度/忠诚度 | 教师和学生模型在预测一致性和预测概率分布对齐方面的相似性 | [忠诚] [保真度] |
鲁棒性 | 对对抗性攻击的抵抗力,其中轻微的输入修改可能会操纵模型的输出 | 【攻击后准确率、查询次数】 |
帕累托最优 | 各种竞争因素之间的最佳权衡 | [帕累托前沿(成本和准确性)] [帕累托前沿(性能和失败次数)] |
基准 | 描述 | 纸 |
---|---|---|
通用 NLP 基准 | 广泛的通用 NLP 基准测试集合,例如 GLUE、SuperGLUE、WMT 和 SQuAD 等。 | 大型语言模型的全面概述 |
动力板 | 一个用于在云中评估 NLP 模型的开源平台,通过可定制的 Dynascore 提供实时交互和模型质量的整体评估 | Dynaboard:用于全面下一代基准测试的评估即服务平台 |
高效的质量保证 | NeurIPS 2020 上的开放域问答 (QA) 挑战赛,重点是构建准确、内存高效的 QA 系统 | NeurIPS 2020 EfficientQA 竞赛:系统、分析和经验教训 |
SustaiNLP 2020 共享任务 | 通过使用 SuperGLUE 指标评估其在八个 NLU 任务中的性能并评估其推理过程中的能耗,开发节能 NLP 模型面临的挑战 | SustaiNLP 2020 共享任务概述 |
ELUE(高效语言理解评估) | 一个基准平台,用于评估跨各种任务的 NLP 模型效率,提供在线指标,并且只需要提交 Python 模型定义文件 | 迈向高效的 NLP:标准评估和强有力的基线 |
VLUE(视觉语言理解评估) | 用于评估跨多个任务的视觉语言模型的综合基准,提供评估和比较的在线平台 | VLUE:用于评估视觉语言模型的多任务基准 |
远程竞技场 (LAG) | 一个基准套件,用于评估长上下文任务上的高效 Transformer 模型,涵盖不同的模式和推理类型,同时允许在受控资源约束下进行评估,突出现实世界的效率 | 远程竞技场:高效变压器的基准 |
注重效率的 MS MARCO | 增强的 MS MARCO 信息检索基准,集成了每次查询延迟和成本等效率指标以及准确性,有助于对 IR 系统进行全面评估 | 超越下游任务准确性的信息检索基准测试 |
如果您发现本文列表对您的研究有用,请考虑引用:
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}