2017年 | 变压器 | 注意力就是你所需要的 | 最初研究的重点是翻译任务。 | TensorFlow + 文章 |
2018年 | GPT | 通过生成预训练提高语言理解 | 第一个预训练的 Transformer 模型,用于对各种 NLP 任务进行微调并获得了最先进的结果 | |
2018年 | 伯特 | BERT:用于语言理解的深度双向变压器的预训练 | 另一种大型预训练模型,旨在生成更好的句子摘要 | 火炬 |
2019年 | GPT-2 | 语言模型是无监督的多任务学习者 | GPT 的改进(和更大)版本,由于道德问题没有立即公开发布 | |
2019年 | DistilBERT - 蒸馏 BERT | DistilBERT,BERT 的精炼版:更小、更快、更便宜、更轻 | BERT 的精炼版本,速度提高了 60%,内存减少了 40%,但仍然保留了 BERT 97% 的性能 | |
2019年 | 捷运 | BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练 | 使用与原始 Transformer 模型相同的架构的大型预训练模型。 | |
2019年 | T5 | 使用统一的文本到文本转换器探索迁移学习的局限性 | 使用与原始 Transformer 模型相同的架构的大型预训练模型。 | |
2019年 | 阿尔伯特 | ALBERT:用于语言表示自监督学习的 Lite BERT | | |
2019年 | RoBERTa - 一种稳健优化的 BERT 预训练方法 | RoBERTa:一种稳健优化的 BERT 预训练方法 | | |
2019年 | 控制键 | CTRL:用于可控生成的条件变压器语言模型 | | |
2019年 | 特大号变形金刚 | Transformer-XL:超越固定长度上下文的细心语言模型 | 对过去的状态采用递归方法,并结合相对位置编码,实现长期依赖 | |
2019年 | 暗黑破坏神GPT | DialoGPT:用于对话响应生成的大规模生成预训练 | 对 2005 年至 2017 年期间从 Reddit 评论链中提取的 1.47 亿条类似对话的交流进行了训练 | 火炬 |
2019年 | 厄尼 | ERNIE:通过信息实体增强语言表示 | 在本文中,我们利用大规模文本语料库和知识图谱来训练增强型语言表示模型(ERNIE),该模型可以同时充分利用词汇、句法和知识信息。 | |
2020年 | GPT-3 | 语言模型是小样本学习者 | GPT-2 的更大版本,能够在各种任务上表现良好,无需微调(称为零样本学习) | |
2020年 | 伊莱克特拉 | Electra:将文本编码器预训练为判别器而不是生成器 | | |
2020年 | 捷运系统 | 神经机器翻译的多语言去噪预训练 | | |
2021年 | CLIP(对比语言-图像预训练) | 从自然语言监督中学习可迁移的视觉模型 | CLIP 是一种在各种(图像、文本)对上进行训练的神经网络。可以用自然语言指示它在给定图像的情况下预测最相关的文本片段,而无需直接优化任务,类似于 GPT-2 和 3 的零样本功能。 | 火炬 |
2021年 | 达尔-E | 零样本文本到图像生成 | | 火炬 |
2021年 | 地鼠 | 扩展语言模型:训练 Gopher 的方法、分析和见解 | | |
2021年 | 决策变压器 | Decision Transformer:通过序列建模进行强化学习 | 将强化学习问题转化为条件序列建模的架构。 | 火炬 |
2021年 | GLam(通才语言模型) | GLaM:利用混合专家有效扩展语言模型 | 在本文中,我们提出并开发了一系列名为 GLaM(通才语言模型)的语言模型,它使用稀疏激活的专家混合架构来扩展模型容量,同时与密集变体相比,训练成本也大大降低。 | |
2022年 | 聊天GPT/指导GPT | 训练语言模型遵循人类反馈的指令 | 这种经过训练的语言模型在遵循用户意图方面比 GPT-3 更好。该模型使用人类反馈强化学习 (RLHF) 进行优化(微调),以实现会话对话。该模型使用人们编写的各种数据进行训练,以获得听起来像人类的响应。 | :-: |
2022年 | 龙猫 | 训练计算最优的大型语言模型 | 使用与 Gopher 相同的计算预算,但具有 70B 参数和 4 倍多的数据。 | :-: |
2022年 | LaMDA - 对话应用程序的语言模型 | 拉MDA | 它是一系列基于 Transformer 的神经语言模型,专门用于对话 | |
2022年 | DQ捷运 | DQ-BART:通过联合蒸馏和量化的高效序列到序列模型 | 提出联合蒸馏和量化模型,将知识从全精度教师模型转移到量化和蒸馏的低精度学生模型。 | |
2022年 | 火烈鸟 | Flamingo:用于少样本学习的视觉语言模型 | 仅使用少量带注释的示例来构建可以快速适应新任务的模型对于多模态机器学习研究来说是一个公开的挑战。我们介绍 Flamingo,它是具有此功能的视觉语言模型 (VLM) 系列。 | |
2022年 | 加托 | 多面手代理 | 受到大规模语言建模进展的启发,我们应用类似的方法来构建超出文本输出领域的单一通用代理。该代理,我们称为 Gato,作为多模式、多任务、多实施例的通才策略。 | |
2022年 | GODEL:目标导向对话的大规模预训练 | GODEL:目标导向对话的大规模预训练 | 与 DialoGPT 等早期模型相比,GODEL 利用了新的基础预训练阶段,旨在更好地支持 GODEL 适应各种下游对话任务,这些任务需要当前对话外部的信息(例如数据库或文档)来产生良好的反应。 | 火炬 |
2023年 | GPT-4 | GPT-4 技术报告 | 该模型现在接受多模式输入:图像和文本 | :-: |
2023年 | 彭博GPT | BloombergGPT:大型金融语言模型 | 专门从事金融领域的法学硕士,接受过彭博广泛数据源的培训 | |
2023年 | 盛开 | BLOOM:176B 参数的开放访问多语言语言模型 | BLOOM(BigScience 大型开放科学开放访问多语言语言模型)是一种仅解码器的 Transformer 语言模型,在 ROOTS 语料库上进行训练,该数据集包含 46 种自然语言和 13 种编程语言(总共 59 种)的数百个源 | |
2023年 | 骆驼2 | Llama 2:开放基础和微调聊天模型 | | PyTorch #1 PyTorch #2 |
2023年 | 克洛德 | 克洛德 | Claude 可以分析 75k 个单词(100k 个标记)。 GPT4 只能处理 32.7k 代币。 | |
2023年 | 自检GPT | SelfCheckGPT:生成大语言模型的零资源黑盒幻觉检测 | 一种简单的基于采样的方法,可用于以零资源方式(即无需外部数据库)对黑盒模型进行事实检查。 | |