生成式人工智能正在快速发展,这个存储库是生成式人工智能研究、采访材料、笔记本等更新的综合中心!
探索以下资源:
我们将定期更新此存储库,因此请留意最新的添加内容!
快乐学习!
*每月月底更新
日期 | 标题 | 抽象的 | 主题 |
---|---|---|---|
2024 年 5 月 31 日 | 法学硕士在高阶心理理论任务中达到了成人的表现 | 本文探讨了大型语言模型 (LLM) 在多大程度上发展了高阶心理理论 (ToM);人类以递归方式推理多种精神和情绪状态的能力(例如,我认为你相信她知道)。本文以之前的工作为基础,介绍了一个手写的测试套件——多阶心理理论问答——并用它来比较五名法学硕士与新收集的成年人基准的表现。我们发现 GPT-4 和 Flan-PaLM 在 ToM 任务上总体上达到了成人水平和接近成人水平的表现,并且 GPT-4 在六阶推理上超过了成人表现。我们的结果表明,模型大小和实现 ToM 能力的微调之间存在相互作用,并且表现最好的法学硕士已经开发了 ToM 的通用能力。鉴于高阶 ToM 在广泛的合作和竞争人类行为中发挥的作用,这些发现对于面向用户的法学硕士应用具有重大意义。 | 心智理论 |
2024 年 5 月 30 日 | JINA CLIP:您的 CLIP 模型也是您的文本检索器 | 对比语言图像预训练 (CLIP) 广泛用于训练模型,通过将图像和文本映射到固定大小的向量,在公共嵌入空间中对齐图像和文本。这些模型是多模式信息检索和相关任务的关键。然而,与专门的文本模型相比,CLIP 模型在纯文本任务中通常表现不佳。这会导致信息检索系统效率低下,这些系统为纯文本和多模式任务保留单独的嵌入和模型。我们提出了一种新颖的多任务对比训练方法来解决这个问题,我们用它来训练 jina-clip-v1 模型,以在文本-图像和文本-文本检索任务上实现最先进的性能。 | 多式联运模型 |
2024 年 5 月 30 日 | Parrot:利用语义变量高效服务基于 LLM 的应用程序 | 大语言模型 (LLM) 的兴起使得基于 LLM 的应用程序(又名 AI 代理或副驾驶)成为可能,这是一种结合了 LLM 和传统软件优势的新软件范例。来自不同租户的不同 LLM 申请可以使用多个 LLM 请求来设计复杂的工作流程来完成一项任务。然而,他们必须使用当今公共 LLM 服务提供的过于简化的请求级 API,从而丢失了重要的应用程序级信息。公共 LLM 服务必须盲目优化各个 LLM 请求,导致 LLM 申请的端到端性能次优。本文介绍Parrot,一个LLM服务系统,专注于LLM应用的端到端体验。 Parrot 提出了语义变量,这是一种将应用程序级知识公开给公共 LLM 服务的统一抽象。语义变量在请求提示中注释输入/输出变量,并在连接多个LLM请求时创建数据管道,从而提供了编程LLM应用程序的自然方法。向公共 LLM 服务公开语义变量使其能够执行传统的数据流分析,以揭示多个 LLM 请求之间的相关性。这种相关性为基于 LLM 的应用程序的端到端性能开辟了全新的优化空间。广泛的评估表明,Parrot 可以为 LLM 应用程序的流行和实际用例实现高达数量级的改进 | 法学硕士代理 |
2024 年 5 月 30 日 | 被困惑所困扰:使用小参考模型进行基于困惑的数据修剪 | 在这项工作中,我们研究小型语言模型是否可以确定大规模文本数据集的高质量子集,从而提高大型语言模型的性能。虽然现有的工作表明基于较大模型的困惑度的剪枝可以产生高质量的数据,但我们研究了较小的模型是否可以用于基于困惑度的剪枝以及剪枝如何受到被剪枝数据的域组成的影响。我们证明,对于多个数据集组成,基于困惑度的预训练数据修剪可以显着提高下游任务性能:基于使用 1.25 亿参数模型计算的困惑度的修剪将 30 亿参数模型的下游任务的平均性能提高高达 2.04并实现预训练步骤最多减少 1.45 倍,以达到相应的基线性能。此外,我们证明这种基于困惑的数据修剪还可以在过度训练和数据约束的情况下产生下游性能增益。 | 小语言模型 |
2024 年 5 月 30 日 | GNN-RAG:用于大型语言模型推理的图神经检索 | 知识图(KG)以三元组(头、关系、尾)的形式表示人工制作的事实知识,它们共同形成一个图。 KG 问答 (KGQA) 是根据 KG 提供的信息回答自然问题的任务。大型语言模型 (LLM) 因其卓越的自然语言理解能力而成为 QA 任务的最先进模型。另一方面,图神经网络(GNN)已广泛用于 KGQA,因为它们可以处理存储在 KG 中的复杂图信息。在这项工作中,我们介绍了 GNN-RAG,这是一种以检索增强生成(RAG)风格将 LLM 的语言理解能力与 GNN 的推理能力相结合的新方法。首先,GNN 对密集的 KG 子图进行推理,以检索给定问题的候选答案。其次,提取知识图谱中连接问题实体和候选答案的最短路径来表示知识图谱推理路径。提取的路径被语言化并作为 RAG 的 LLM 推理的输入。在我们的 GNN-RAG 框架中,GNN 充当密集子图推理器来提取有用的图信息,而 LLM 利用其自然语言处理能力实现最终的 KGQA。此外,我们开发了一种检索增强(RA)技术,以进一步提高 GNN-RAG 的 KGQA 性能。实验结果表明,GNN-RAG 在两个广泛使用的 KGQA 基准(WebQSP 和 CWQ)中实现了最先进的性能,优于或与 7B 调整的 LLM 的 GPT-4 性能相匹配。此外,GNN-RAG 在多跳和多实体问题上表现出色,在答案 F1 时比竞争方法高出 8.9-15.5%。我们在 https://github.com/cmavro/GNN-RAG 提供代码和 KGQA 结果。 | 知识图谱上的 RAG |
2024 年 5 月 29 日 | 自我探索语言模型:在线对齐的主动偏好诱导 | 偏好优化,特别是通过人类反馈强化学习 (RLHF),在调整大型语言模型 (LLM) 以遵循人类意图方面取得了重大成功。与与固定数据集的离线对齐不同,人类或人工智能对模型生成的在线反馈收集通常会通过迭代过程产生更强大的奖励模型和更好对齐的法学硕士。然而,实现全球准确的奖励模型需要系统探索,以生成跨越自然语言广阔空间的多样化响应。仅从标准奖励最大化法学硕士中随机抽样不足以满足这一要求。为了解决这个问题,我们提出了一个双层目标,乐观地偏向于潜在的高回报反应,以积极探索分布外区域。通过使用重新参数化的奖励函数解决内部层问题,生成的算法称为自探索语言模型 (SELM),消除了对单独 RM 的需要,并以简单的目标迭代更新 LLM。与直接偏好优化 (DPO) 相比,SELM 目标减少了对未见外推的不加区别的偏向,并提高了探索效率。我们的实验结果表明,当在 Zephyr-7B-SFT 和 Llama-3-8B-Instruct 模型上进行微调时,SELM 显着提高了 MT-Bench 和 AlpacaEval 2.0 等指令跟踪基准以及不同设置下的各种标准学术基准的性能。我们的代码和模型可在 https://github.com/shenao-zhang/SELM 获取。 | 对齐、偏好优化 |
2024 年 5 月 28 日 | OpenRLHF:易于使用、可扩展且高性能的 RLHF 框架 | 随着大型语言模型(LLM)通过缩放法则不断发展,人类反馈强化学习(RLHF)因其出色的性能而受到广泛关注。然而,与预训练或微调单个模型不同,通过人类反馈(RLHF)扩展强化学习来训练大型语言模型给四个模型之间的协调带来了挑战。我们推出 OpenRLHF,这是一个能够实现高效 RLHF 扩展的开源框架。与在同一 GPU 上共置四个模型的现有 RLHF 框架不同,OpenRLHF 使用 Ray、vLLM 和 DeepSpeed 重新设计了超过 70B 参数的模型调度,利用改进的资源利用率和多样化的训练方法。 OpenRLHF 与 Hugging Face 无缝集成,提供具有优化算法和启动脚本的开箱即用解决方案,确保用户友好性。 OpenRLHF 实现了 RLHF、DPO、拒绝采样和其他对齐技术。 OpenRLHF 的代码支持最先进的 LLM 开发,可从 https://github.com/OpenLLMAI/OpenRLHF 获取。 | RLHF,工具包 |
2024 年 5 月 28 日 | LLAMA-NAS:大型语言模型的高效神经架构搜索 | 现代大语言模型(LLM)在解决自然语言处理、复杂推理、情感分析和其他任务方面的能力非常出色,这促使它们被广泛采用。不幸的是,这些能力伴随着非常高的内存和计算成本,这使得法学硕士无法在大多数硬件平台上使用。为了缓解这一问题,我们提出了一种使用一次性 NAS 寻找基于 LLaMA2-7B 的帕累托最优网络架构的有效方法。特别是,我们仅对 LLaMA2-7B 进行一次微调,然后应用基于遗传算法的搜索来寻找更小、计算复杂度较低的网络架构。我们表明,对于某些标准基准测试任务,预训练的 LLaMA2-7B 网络不必要地庞大和复杂。更具体地说,我们证明了某些任务的模型大小减少了 1.5 倍,吞吐量提高了 1.3 倍,而精度下降可以忽略不计。除了寻找更小、性能更高的网络架构之外,我们的方法比某些修剪或稀疏技术更有效和高效。最后,我们演示了量化如何与我们的方法互补,以及我们发现的网络的大小和复杂性可以使用量化进一步降低。我们相信,我们的工作提供了一种自动创建法学硕士的方法,可以在更便宜且更容易获得的硬件平台上使用。 | 神经架构搜索,模型尺寸缩小 |
2024 年 5 月 28 日 | 不要忘记连接!通过基于图的重新排名改进 RAG | 检索增强生成 (RAG) 通过将生成与现有文档的上下文结合起来,极大地提高了大型语言模型 (LLM) 响应的性能。当文档与问题上下文明显相关时,这些系统可以很好地发挥作用。但是,当文档包含部分信息或与上下文的联系不太明显时该怎么办?我们应该如何推理文档之间的联系?在这项工作中,我们试图回答有关 RAG 生成的两个核心问题。我们引入了 G-RAG,这是一种基于 RAG 中检索器和阅读器之间的图神经网络 (GNN) 的重新排序器。我们的方法结合了文档和语义信息之间的联系(通过抽象含义表示图),为 RAG 提供上下文通知的排名器。 G-RAG 的性能优于最先进的方法,同时具有更小的计算占用量。此外,我们评估了 PaLM 2 作为重新排序器的性能,发现它的性能明显低于 G-RAG。这一结果强调了即使在使用大型语言模型时,RAG 重新排序的重要性。 | RAG 推理 |
2024 年 5 月 27 日 | Meteor:基于 Mamba 的大型语言和视觉模型原理遍历 | 视觉指令调优的进步推动了大型语言和视觉模型(LLVM)的快速发展。最近,开源 LLVM 已经策划了高质量的视觉指令调整数据集,并利用了额外的视觉编码器或多个计算机视觉模型,以缩小与强大的闭源 LLVM 的性能差距。这些进步归因于不同能力所需的多方面信息,包括基本的图像理解、有关常识和非对象概念(例如图表、图表、符号、符号和数学问题)的现实知识以及逐步的知识。 -解决复杂问题的步骤程序。借鉴多方面的信息,我们提出了一种新的高效的LLVM、基于Mamba的理据遍历(Meteor),它利用多方面的理据来增强理解和回答能力。为了嵌入包含丰富信息的冗长原理,我们采用了 Mamba 架构,能够以线性时间复杂度处理顺序数据。我们引入了基本原理遍历的新概念,有助于有效嵌入基本原理。随后,对主干多模态语言模型(MLM)进行训练,以在基本原理的帮助下生成答案。通过这些步骤,Meteor 在需要不同功能的多个评估基准中实现了视觉语言性能的显着提高,而无需扩大模型大小或采用额外的视觉编码器和计算机视觉模型。代码可在 https://github.com/ByungKwanLee/Meteor 中找到。 | 状态空间模型、多模态模型 |
2024 年 5 月 27 日 | 视觉语言建模简介 | 随着大型语言模型 (LLM) 最近的流行,人们进行了多次尝试将其扩展到视觉领域。从可以引导我们穿过陌生环境的视觉助手到仅使用高级文本描述生成图像的生成模型,视觉语言模型(VLM)应用程序将极大地影响我们与技术的关系。然而,为了提高这些模型的可靠性,需要解决许多挑战。虽然语言是离散的,但视觉是在更高维的空间中演化的,在这个空间中,概念并不总是容易离散化。为了更好地理解将视觉映射到语言背后的机制,我们介绍了 VLM,希望能够帮助任何想要进入该领域的人。首先,我们介绍什么是 VLM、它们如何工作以及如何训练它们。然后,我们提出并讨论评估 VLM 的方法。虽然这项工作主要侧重于将图像映射到语言,但我们也讨论了将 VLM 扩展到视频。 | 多模式模型、调查 |
2024 年 5 月 27 日 | 俄罗斯套娃多式联运模型 | LLaVA 等大型多模态模型 (LMM) 在视觉语言推理方面表现出了强大的性能。这些模型首先将图像嵌入到固定的大量视觉标记中,然后将它们输入到大型语言模型(LLM)中。然而,这种设计导致对于高分辨率图像和视频等密集视觉场景,令牌数量过多,导致效率极低。虽然存在标记修剪和合并方法,但它们为每个图像生成单一长度的输出,并且无法在信息密度与效率之间提供灵活性。受俄罗斯套娃概念的启发,我们提出了 M3:俄罗斯套娃多模态模型,它学习将视觉内容表示为嵌套的视觉标记集,这些标记集跨多个从粗到细的粒度捕获信息。我们的方法为 LMM 提供了几个独特的好处:(1)可以在推理过程中明确控制每个测试实例的视觉粒度,例如,根据预期的内容复杂性或简单性来调整用于表示图像的标记数量; (2) M3 提供了一个分析现有数据集所需粒度的框架,我们发现 COCO 式基准仅需要大约 9 个视觉标记即可获得与使用所有 576 个标记相似的准确度; (3) 我们的方法为探索样本级别的性能和视觉标记长度之间的最佳权衡奠定了基础,我们的调查表明,预言机上限和当前固定规模表示之间存在很大差距。 | 多式联运模型 |
2024 年 5 月 27 日 | Trans-LoRA:实现无数据可传递参数高效微调 | 低秩适配器 (LoRA) 及其变体是流行的参数高效微调 (PEFT) 技术,其与完整模型微调性能非常匹配,同时仅需要少量附加参数。这些额外的 LoRA 参数特定于正在调整的基本模型。当需要弃用基础模型并用新模型替换时,所有相关的 LoRA 模块都需要重新训练。此类重新训练需要访问用于为原始基础模型训练 LoRA 的数据。对于商业云应用程序来说,这尤其成问题,其中 LoRA 模块和基本模型由服务提供商托管,而服务提供商可能不被允许托管专有的客户端任务数据。为了应对这一挑战,我们提出了 Trans-LoRA——一种跨基础模型无损、几乎无数据传输 LoRA 的新方法。我们的方法依赖于合成数据来传输 LoRA 模块。使用大型语言模型,我们设计了一个合成数据生成器来近似观察任务数据子集的数据生成过程。对生成的合成数据集进行训练可将 LoRA 模块转移到新模型。我们使用 LLama 和 Gemma 模型系列展示了我们方法的有效性。我们的方法在各种任务中实现了不同基础模型系列内和不同基础模型系列之间的模型之间,甚至不同 PEFT 方法之间的无损(大部分改进)LoRA 传输。 | PEFT 方法,微调 |
2024 年 5 月 26 日 | 语言模型对齐的自玩偏好优化 | 传统的人类反馈强化学习 (RLHF) 方法依赖于 Bradley-Terry 模型等参数模型,无法捕捉人类偏好中的不及物性和非理性。最近的进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活、更准确的语言模型对齐。在本文中,我们提出了一种基于自我博弈的语言模型对齐方法,该方法将问题视为恒定和两人博弈,旨在确定纳什均衡策略。我们的方法被称为自我博弈偏好优化(SPPO),通过迭代策略更新来逼近纳什均衡,并享有理论上的收敛保证。我们的方法可以有效地增加所选响应的对数似然并降低被拒绝响应的对数似然,这是通过直接偏好优化(DPO)和身份偏好优化(IPO)等对称成对损失无法轻松实现的。在我们的实验中,仅使用来自 UltraFeedback 数据集的 60k 提示(无响应)并且没有任何提示增强,通过利用仅具有 0.4B 参数的预训练偏好模型 PairRM,SPPO 可以通过微调 Mistral-7B 获得模型Instruct-v0.2 在 AlpacaEval 上对 GPT-4-Turbo 实现了最先进的长度控制胜率 28.53% 2.0。它还在 MT-Bench 和 Open LLM 排行榜上优于(迭代)DPO 和 IPO。值得注意的是,SPPO 的强大性能是在没有来自 GPT-4 或其他更强的语言模型的额外外部监督(例如,响应、偏好等)的情况下实现的。 | 对齐、优化 |
2024 年 5 月 23 日 | 并非所有语言模型特征都是线性的 | 最近的工作提出了线性表示假设:语言模型通过操纵激活空间中概念(“特征”)的一维表示来执行计算。相反,我们探索某些语言模型表示是否本质上是多维的。我们首先根据不可约多维特征是否可以分解为独立或非共现的低维特征来制定严格的定义。受这些定义的启发,我们设计了一种可扩展的方法,使用稀疏自动编码器自动查找 GPT-2 和 Mistral 7B 中的多维特征。这些自动发现的特征包括引人注目的可解释示例,例如代表一周中的几天和一年中的月份的圆形特征。我们确定使用这些精确的圆来解决涉及一周中的几天和一年中的几个月的模算术的计算问题的任务。最后,我们通过 Mistral 7B 和 Llama 3 8B 的干预实验提供证据,证明这些圆形特征确实是这些任务中的基本计算单位,并且通过将这些任务的隐藏状态分解为可解释的组件,我们找到了进一步的圆形表示。 | 线性表示分析 |
2024 年 5 月 23 日 | AlignGPT:具有自适应对齐能力的多模态大语言模型 | 多模态大语言模型(MLLM)被广泛认为在通用人工智能(AGI)的探索中至关重要。 MLLM 的核心在于其实现跨模式对齐的能力。为了实现这一目标,当前的 MLLM 通常遵循两阶段训练范例:预训练阶段和指令调整阶段。尽管取得了成功,但这些模型中的对齐能力建模仍存在缺陷。首先,在预训练阶段,模型通常假设所有图像文本对都是均匀对齐的,但实际上不同图像文本对之间的对齐程度不一致。其次,目前用于微调的指令包含多种任务,不同任务的指令通常需要不同级别的对齐能力,但以前的MLLM忽略了这些差异化的对齐需求。为了解决这些问题,我们提出了一种新的多模态大语言模型 AlignGPT。在预训练阶段,我们没有平等地对待所有图像文本对,而是为不同的图像文本对分配不同级别的对齐能力。然后,在指令调优阶段,我们自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求。大量实验结果表明,我们的模型在 12 个基准测试中实现了具有竞争力的性能。 | 对齐,多模式模型 |
2024 年 5 月 23 日 | HippoRAG:受神经生物学启发的大型语言模型的长期记忆 | 为了在充满敌意和不断变化的自然环境中茁壮成长,哺乳动物的大脑不断进化,能够存储大量关于世界的知识,并不断整合新信息,同时避免灾难性的遗忘。尽管取得了令人印象深刻的成就,大型语言模型(LLM),即使具有检索增强生成(RAG),在预训练后仍然难以高效且有效地整合大量新经验。在这项工作中,我们介绍了 HippoRAG,这是一种新颖的检索框架,其灵感来自人类长期记忆的海马索引理论,能够对新体验进行更深入、更有效的知识整合。 HippoRAG 协同协调法学硕士、知识图谱和个性化 PageRank 算法,以模仿新皮质和海马体在人类记忆中的不同作用。我们将 HippoRAG 与现有的 RAG 方法在多跳问答上进行比较,结果表明我们的方法显着优于最先进的方法,最高可达 20%。使用 HippoRAG 的单步检索可实现与 IRCoT 等迭代检索相当或更好的性能,同时价格便宜 10-30 倍,速度提高 6-13 倍,并且将 HippoRAG 集成到 IRCoT 中可带来进一步的实质性收益。最后,我们证明我们的方法可以解决现有方法无法解决的新型场景。 | RAG优化 |
2024 年 5 月 21 日 | OmniGlue:具有基础模型指导的可泛化特征匹配 | 图像匹配领域不断出现新颖的可学习特征匹配技术,其在传统基准测试上的性能不断提高。然而,我们的调查表明,尽管取得了这些成果,但它们在现实世界中的应用潜力却因其对新图像领域的泛化能力有限而受到限制。在本文中,我们介绍了 OmniGlue,这是第一个以泛化为核心原则设计的可学习图像匹配器。 OmniGlue 利用视觉基础模型中的广泛知识来指导特征匹配过程,从而促进对训练时未见过的领域的泛化。此外,我们提出了一种新颖的关键点位置引导注意机制,该机制可以解开空间和外观信息,从而增强匹配描述符。我们对具有不同图像域的 7 个数据集进行了全面的实验,包括场景级图像、以对象为中心的图像和航空图像。相对于可直接比较的参考模型,OmniGlue 的新颖组件在未见过的领域上实现了 20.9% 的相对增益,同时也比最近的 LightGlue 方法相对提高了 9.5%。代码和模型可以在https://hwjian1510.github.io/OmniGlue找到。 | 多式联运模型 |
2024 年 5 月 20 日 | MoRA:用于参数高效微调的高阶更新 | 低秩适应 (LoRA) 是一种流行的大型语言模型 (LLM) 参数高效微调 (PEFT) 方法。在本文中,我们分析了 LoRA 中实现的低秩更新的影响。我们的研究结果表明,低等级更新机制可能会限制法学硕士有效学习和记忆新知识的能力。受这一观察的启发,我们提出了一种名为 MoRA 的新方法,它采用方阵来实现高秩更新,同时保持相同数量的可训练参数。为了实现这一点,我们引入相应的非参数运算符来减少方阵的输入维度并增加输出维度。此外,这些算子确保权重可以合并回 LLM,这使得我们的方法可以像 LoRA 一样部署。我们对五项任务的方法进行了全面评估:指令调整、数学推理、持续预训练、记忆和预训练。我们的方法在内存密集型任务上优于 LoRA,并在其他任务上实现了相当的性能。我们的代码将在 https://github.com/kongds/MoRA 上提供。 | PEFT 方法、微调 |
2024 年 5 月 19 日 | 你的变压器是秘密线性的 | 本文揭示了 Transformer 解码器独有的新颖线性特性,包括 GPT、LLaMA、OPT、BLOOM 等模型。我们分析了连续层之间的嵌入变换,发现了近乎完美的线性关系(Procrustes 相似度得分为 0.99)。然而,当残余分量被移除时,由于变压器层的输出范数始终较低,线性度会降低。我们的实验表明,删除或线性近似一些最线性的变压器块不会显着影响损耗或模型性能。此外,在我们对较小模型的预训练实验中,我们引入了基于余弦相似度的正则化,旨在降低层线性度。这种正则化提高了 Tiny Stories 和 SuperGLUE 等基准测试的性能指标,并成功降低了模型的线性度。这项研究挑战了对变压器架构的现有理解,表明它们的运行可能比之前假设的更加线性。1 | 变压器分析 |
2024 年 5 月 18 日 | 通过构建和重用 LoRA 库迈向模块化法学硕士 | 基础大语言模型 (LLM) 的参数高效适应数量不断增加,需要研究我们是否可以重用此类训练有素的适配器来提高新任务的性能。我们研究如何在给定多任务数据的情况下最好地构建适配器库,并通过在此类库中进行路由来设计零样本和监督任务泛化的技术。我们对构建该库的现有方法进行基准测试,并引入基于模型的聚类(MBC),这是一种根据适配器参数的相似性对任务进行分组的方法,从而间接优化跨多任务数据集的传输。为了重用该库,我们提出了一种新颖的零样本路由机制 Arrow,它可以为新输入动态选择最相关的适配器,而无需重新训练。我们使用 Phi-2 和 Mistral 等多个 LLM 在一系列广泛的保留任务上进行实验,验证基于 MBC 的适配器和 Arrow 路由能够对新任务进行卓越的泛化。我们采取措施创建模块化、适应性强的法学硕士,可以匹配或超越传统的联合培训。 | PEFT 方法、微调、工具包 |
2024 年 5 月 16 日 | Chameleon:混合模态早期融合基础模型 | 我们提出了 Chameleon,这是一系列基于早期融合令牌的混合模式模型,能够理解和生成任意序列的图像和文本。我们从一开始就概述了稳定的训练方法、对齐方法以及为早期融合、基于令牌的混合模式设置量身定制的架构参数化。这些模型在一系列全面的任务上进行评估,包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成。 Chameleon 展示了广泛而通用的功能,包括在图像字幕任务中最先进的性能,在纯文本任务中优于 Llama-2,同时与 Mixtral 8x7B 和 Gemini-Pro 等模型竞争,并执行非平凡的图像一代,全部在一个模型中。根据人类对新的长形式混合模式生成评估的判断,它还匹配或超过了更大模型(包括 Gemini Pro 和 GPT-4V)的性能,其中提示或输出包含图像和文本的混合序列。 Chameleon 标志着完整多模式文档的统一建模向前迈出了重要一步。 | 多模态模型、基础模型 |
2024 年 5 月 16 日 | 多模态基础模型中的多镜头情境学习 | 众所周知,大型语言模型在小样本上下文学习(ICL)方面非常有效。多模态基础模型的最新进展实现了前所未有的长上下文窗口,为探索其执行 ICL 的能力提供了机会,并提供了更多演示示例。在这项工作中,我们评估了从少镜头到多镜头 ICL 的多模态基础模型的性能。我们在跨越多个领域(自然图像、医学图像、遥感和分子图像)和任务(多类、多标签和细粒度分类)的 10 个数据集上对 GPT-4o 和 Gemini 1.5 Pro 进行基准测试。我们观察到,在所有数据集中,与少样本(<100 个样本)ICL 相比,多样本 ICL(包括多达近 2,000 个多模态演示示例)带来了显着改进。此外,Gemini 1.5 Pro 的性能继续以对数线性方式提高,直至许多数据集上测试示例的最大数量。考虑到与多次 ICL 所需的长提示相关的高推理成本,我们还探讨了在单个 API 调用中批处理多个查询的影响。我们表明,批处理最多 50 个查询可以在零样本和多样本 ICL 下提高性能,在多个数据集上的零样本设置中获得显着收益,同时大幅降低每个查询的成本和延迟。最后,我们测量模型的 ICL 数据效率,或者模型从更多演示示例中学习的速率。我们发现,虽然 GPT-4o 和 Gemini 1.5 Pro 在整个数据集上实现了相似的零样本性能,但 Gemini 1.5 Pro 在大多数数据集上表现出比 GPT-4o 更高的 ICL 数据效率。我们的结果表明,多次 ICL 可以使用户有效地将多模态基础模型适应新的应用程序和领域。我们的代码库可在 https://github.com/stanfordmlgroup/ManyICL 上公开获取。 | ICL,多模式模型 |
2024 年 5 月 15 日 | LoRA 学到的东西更少,忘记的东西也更少 | 低秩适应(LoRA)是一种广泛用于大型语言模型的参数高效微调方法。 LoRA 通过仅训练对选定权重矩阵的低秩扰动来节省内存。在这项工作中,我们比较了 LoRA 和完全微调在两个目标领域(编程和数学)上的性能。我们同时考虑指令列芬(≈100K提示 - 响应对),又考虑持续预处理(≈10b非结构化令牌)数据制度。我们的结果表明,在大多数情况下,洛拉(Lora)的表现明显不足。然而,洛拉(Lora)表现出理想的正规化形式:它更好地维持基本模型在目标域之外的任务上的性能。我们表明,与诸如体重衰减和辍学之类的常见技术相比,洛拉提供了更强的正则化。它还有助于维持更多的几代人。我们表明,完整的芬太尼学习扰动的等级比典型的洛拉配置要大10-100倍,这可能解释了一些报告的差距。我们通过提出与洛拉(Lora)进行填补的最佳实践来结束。 | PEFT方法,微调 |
2024 年 5 月 14 日 | 了解在线和离线对齐算法之间的性能差距 | 来自人类反馈的强化学习(RLHF)是大型语言模型对齐的规范框架。然而,离线对齐算法的日益普及对 RLHF 中的在线策略采样的需求提出了挑战。在奖励过度优化的背景下,我们从一组开放实验开始,这些实验证明了在线方法相对于离线方法的明显优势。这促使我们通过一系列精心设计的实验消融来调查性能差异的原因。我们凭经验表明,离线数据覆盖范围和数据质量等假设本身无法令人信服地解释性能差异。我们还发现,虽然离线算法训练策略以擅长成对分类,但在世代分类方面表现较差;与此同时,在线算法训练的策略在生成方面表现良好,但在成对分类方面表现较差。这暗示了判别能力和生成能力之间存在独特的相互作用,而这种相互作用很大程度上受到采样过程的影响。最后,我们观察到对比和非对比损失函数的性能差异仍然存在,并且似乎不能通过简单地扩大政策网络来解决。总而言之,我们的研究揭示了策略采样在人工智能对齐中的关键作用,并暗示了离线对齐算法的某些基本挑战。 | 结盟 |
2024 年 5 月 13 日 | RLHF工作流程:从奖励建模到在线RLHF | 我们在这份技术报告中介绍了从人类反馈(RLHF)中学习的在线迭代增强学习的工作流程,该报告被广泛报道,在最近的大型语言模型(LLM)文献中,它的大幅度优于其离线范围。然而,现有的开源 RLHF 项目仍然很大程度上局限于离线学习环境。在这份技术报告中,我们旨在填补这一空白,并提供易于复制的详细食谱,用于在线迭代RLHF。特别是,由于在线人类反馈通常对于资源有限的开源社区来说是不可行的,因此我们首先使用一组开源数据集构建偏好模型,并使用构造的替代偏好模型来近似人类的反馈。然后,我们讨论在线迭代RLHF背后的理论见解和算法原则,然后进行详细的实际实施。我们训练有素的LLM SFR-DPO-LALAMA-3-8B-R在LLM ChatBot基准中取得了令人印象深刻的表现,包括Alpacaeval-2,Arena-Hard和MT Bench,以及其他学术基准,例如Humaneval和Humaneval和Humaneval和真实。我们已经证明,有监督的微调(SFT)和迭代RLHF可以通过完全开源数据集获得最先进的性能。此外,我们制作了模型,策划的数据集和全面的分步代码指南。请参阅https://github.com/rlhflow/rlhf-reward-modeling和https://github.com/rlhflow/online-rlhf,以获取更多详细信息。 | 偏好优化,RLHF |
2024 年 5 月 2 日 | Prometheus 2:专门评估其他语言模型的开源语言模型 | 专有的LMS(例如GPT-4)通常被用来评估来自各种LMS的响应质量。但是,包括透明度,可控性和可负担性在内的担忧强烈激发了专门从事评估的Opensource LMS的发展。另一方面,现有的开放式评估员LMS表现出重要的缺点:1)它们发出的分数与人类分配的分数显着不同,2)他们缺乏执行直接评估和成对排名的灵活性,这是两种最普遍的评估形式。此外,他们没有根据自定义评估标准进行评估的能力,而是专注于有用和无害性等一般属性。为了解决这些问题,我们介绍了Prometheus 2,这是一种比前任更强大的评估者LM,它密切反映了人类和GPT-4的判断。此外,它能够处理与用户定义的评估标准分组的直接评估和配对排名格式。在四个直接评估基准和四个成对排名的基准上,Prometheus 2在所有经过测试的开放评估者LMS中,与人类和专有LM法官的相关性和一致性最高。我们的模型,代码和数据均可公开使用1。 | 评估,代理 |
2024 年 5 月 2 日 | WILDCHAT:野外 100 万条 CHATGPT 交互日志 | GPT-4 和 ChatGPT 等聊天机器人现在正在为数百万用户提供服务。尽管它们被广泛使用,但仍然缺乏公共数据集来展示这些工具在实践中如何被用户群体使用。为了弥补这一差距,我们为在线用户提供了免费访问 ChatGPT 的机会,以换取他们肯定、同意的选择,以匿名方式收集他们的聊天记录和请求标头。据此,我们编译了 WILDCHAT,这是一个包含 100 万个用户 ChatGPT 对话的语料库,其中包含超过 250 万个交互回合。我们将 WILDCHAT 与其他流行的用户聊天机器人交互数据集进行比较,发现我们的数据集提供了最多样化的用户提示,包含最多数量的语言,并提供了最丰富的潜在有毒用例供研究人员研究。除了带时间戳的聊天记录之外,我们还使用人口统计数据丰富了数据集,包括州、国家/地区和哈希 IP 地址以及请求标头。这种增强可以对不同地理区域和时间维度的用户行为进行更详细的分析。最后,由于它捕获了广泛的用例,因此我们在微调指令遵循模型中演示了数据集的潜在效用。 Wildchat根据AI2 Impact许可证在https://wildchat.allen.ai上发布。 | 基准,评估 |
2024 年 5 月 2 日 | 故事散文:长期图像和视频生成的一致自我注意 | 对于最新的基于扩散的生成模型,在一系列生成的图像中保持一致的内容,尤其是包含受试者和复杂细节的图像,这是一个重大挑战。在本文中,我们提出了一种新的自我注意计算方式,称为一致的自我注意力,可以显着提高生成的图像和增强以零拍的方式增强基于预处理的基于扩散的文本对图像模型。为了将我们的方法扩展到远程视频生成,我们进一步介绍了一个新型的语义空间时间运动预测模块,称为语义运动预测指标。经过训练,可以估计语义空间中两个提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主题的视频,这些视频比仅基于潜在空间的模块要稳定得多,尤其是在长视频生成的背景下。通过合并这两个新颖的组成部分,我们的框架(称为故事散文)可以描述一个基于文本的故事,其中包含各种内容的图像或视频。拟议的故事散文包含图像和视频的呈现,涵盖了视觉故事生成中的开拓性探索,我们希望这可以从建筑修改方面激发更多的研究。 | 多模型模型,扩散 |
2024 年 5 月 2 日 | 火焰:大语言模型的事实意识到的一致性 | 对齐方式是微调预训练的大语言模型(LLMS)的标准程序,以遵循自然语言说明并作为有用的AI助手。但是,我们观察到,常规的一致过程无法提高LLM的事实准确性,并且通常会导致产生更多的虚假事实(即幻觉)。在本文中,我们通过首先确定导致两个对齐步骤的幻觉的因素来研究如何使LLM对齐过程更加事实:受监督的微调(SFT)和加固学习(RL)。特别是,我们发现培训LLM关于新知识或陌生文本可以鼓励幻觉。这使得SFT在可能是新颖的LLM的人类标记的数据上训练的事实。此外,标准RL中使用的奖励功能也可以鼓励幻觉,因为它指导LLM对各种说明提供更有帮助的响应,通常更喜欢更长,更详细的响应。基于这些观察结果,我们提出了通过直接偏好优化的事实感知的SFT和事实感知的RL组成的事实意识对准(火焰)。实验表明,我们提出的事实意识的一致性指导LLMS在保持指导跟随能力的同时输出更多的事实响应 | 一致性,事实 |
2024 年 5 月 2 日 | Nemo-Aligner:可扩展的工具包,用于有效模型对齐 | 将大型语言模型(LLM)与人类价值观和偏好保持一致,对于使其有用和安全至关重要。但是,构建有效的执行对齐方式的工具可能具有挑战性,尤其是对于通常包含数万美元或数千亿个参数的最大和最有能力的LLM。我们创建了Nemo-Aligner,这是一种用于模型对齐的工具包,可以有效地扩展使用数百个GPU进行训练。 Nemo-Aligner具有高度优化和可扩展的实现模型对齐范式的实现,例如:从人类反馈中学习(RLHF),直接偏好优化(DPO),Steerlm和自我播放微调(Spin)。此外,我们的工具包还支持在参数有效微调(PEFT)设置中运行大多数对齐技术。 Nemo-Aligner设计用于可扩展性,以最少的精力为其他对准技术提供支持。它是通过Apache 2.0许可证开源的,我们在https://github.com/nvidia/nemo-aligner上邀请社区捐款。 | 对齐,工具包 |
2024 年 5 月 1 日 | 更大的编辑批量尺寸总是更好吗? - 一项关于Llama-3模型编辑的实证研究 | 这项研究提出了针对性的模型编辑分析,该分析的重点是最新的大语言模型Llama-3。我们探讨了流行模型编辑技术的功效 - 罗马,MEMIT和EMMET,这些技术专为精确的层干预而设计。我们通过评估来确定针对目标编辑的最有效层,该评估包含三种不同策略的4096个编辑:顺序编辑,批处理编辑以及我们称为顺序批次编辑的混合方法。我们的发现表明,增加的编辑批量尺寸可能比顺序使用较小的编辑批量进行相等数量的编辑,更明显地降低了模型性能。这样一来,我们认为顺序模型编辑是缩放模型编辑方法的重要组成部分,未来的研究应集中在结合批处理和顺序编辑的方法上。该观察结果表明,在当前模型编辑方法中有一个潜在的限制,该方法推向了更大的编辑批量尺寸,我们希望它为未来的调查铺平道路,以优化批次尺寸和模型编辑性能。 | 模型编辑 |
2024 年 5 月 1 日 | LoRA Land:310 个可与 GPT-4 竞争的微调法学硕士,技术报告 | 低级适应性(LORA)已成为大型语言模型(LLMS)的参数有效微调(PEFT)的最广泛采用的方法之一。洛拉(Lora)减少了可训练的参数和内存使用量的数量,同时达到了与完整微调的可比性能。我们旨在评估在现实世界应用中对Lora进行微调的培训和LLMS的生存能力。首先,我们在10个基本模型中用量化的低级适配器和31个任务的LLMS质量进行了微调的质量,总计310个模型。我们发现,4位Lora微型模型平均比基本模型平均优于34点,而GPT-4乘以10点。其次,我们研究了用于微调的最有效的基础模型,并评估了在预测微调结果中,任务复杂性启发式方法的相关和预测能力。最后,我们评估了Lorax的潜伏期和并发功能,Lorax是一种开源多Lora推理服务器,可利用使用共享的基本模型权重和动态适配器加载来促进单个GPU上多个Lora微型模型的部署。 Lorax Powers Lora Land,这是一种Web应用程序,可在单个NVIDIA A100 GPU上托管25个Lora微调Mistral-7B LLM,具有80GB内存。 Lora Land强调了在单个通用LLM上使用多个专业LLM的质量和成本效益。 | PEFT方法,微调 |
加入1000多名学生参加这项为期10周的冒险,当我们深入研究LLM在各种用例中的应用
? *第1周[2024年1月15日] *:LLMS实用介绍
? * *第2周[2024年1月22日] *:提示并提示工程
? *第3周[2024年1月29日] *:LLM微调
? *第4周[2024年2月5日] *:抹布
? *第5周[2024年2月12日] *:构建LLM应用的工具
? * *第6周[2024年2月19日] *:评估技术
? *第7周[2024年2月26日] *:构建自己的LLM申请
? *第8周[2024年3月4日] *:高级功能和部署
? *第9周[2024年3月11日] *:LLMS挑战
? * *第10周[2024年3月18日] *:新兴研究趋势
? * *第11周 *奖金 *[2024年3月25日] *:基础
苏黎世联邦理工学院的大型语言模型
普林斯顿大学的《理解大型语言模型》
Huggingface 的变形金刚课程
Huggingface 的 NLP 课程
CS324 - 斯坦福大学的大型语言模型
Coursera 的大型语言模型生成式人工智能
Coursera 的生成式人工智能简介
Google Cloud 生成式 AI 基础知识
Google Cloud 大型语言模型简介
Google Cloud 生成式 AI 简介
DataCamp 的生成式 AI 概念(Daniel Tedesco 数据主管 @ Google)
WeCloudData 1 小时介绍 LLM(大型语言模型)
从头开始的法学硕士基础模型| Databricks 入门
Nvidia 解释生成式 AI
Google Cloud的变压器模型和BERT模型
AWS为决策者的生成AI学习计划
Google Cloud负责人AI简介
Microsoft Azure的生成AI的基础
Microsoft的初学者的生成AI
初学者的chatgpt:udemy的每个人的最终用例
[1小时谈话] Andrej Karpathy的大型语言模型介绍
通过学习提示来为每个人聊天
大型语言模型(LLMS)(英语)撰写的Kshitiz Verma(JK Lakshmipat University,印度斋浦尔)
LLMOPS:使用大语言模型构建现实世界应用程序
FSDL完整堆栈LLM训练营
Microsoft的初学者的生成AI
大型语言模型:通过Databricks通过生产应用
AWS生成的AI基础
Ineuron的生成AI社区课程简介
LLM University by Cohere
LLM学习实验室通过闪电AI
通过DeepLearning.AI进行llm llm应用程序开发的Langchain
llmops by deeplearning.ai
通过DeepLearning.AI自动测试LLMOP
使用AWS的Amazon Bedrock建造生成的AI应用
通过深度学习有效地服务LLM
通过DeepLearning.AI与Chatgpt API建造系统
无服务的LLM应用程序与Amazon Bedrock通过DeepLearning.AI
通过DeepLearning.AI通过矢量数据库构建应用程序
通过DeepLearning.AI自动测试LLMOP
llmops by deeplearning.ai
用langchain.js构建LLM应用程序
通过DeepLearning.AI进行AI的高级检索
通过Coursera在Azure上操作LLMS
生成AI完整课程 - Gemini Pro,Openai,Llama,Langchain,Pinecone,Vector Databases等
Activeloop培训和微调LLM生产的LLM
langchain&向量数据库生产中的Activeloop
通过深度学习从人类反馈中学习的强化。
通过DeepLearning.AI通过矢量数据库构建应用程序
通过DeepLearning.AI填补大型语言模型
Langchain:通过DeepLearning.AI与您的数据聊天
通过DeepLearning.AI与Chatgpt API建造系统
通过DeepLearning.AI与Llama 2的及时工程
通过 Deeplearning.AI 使用矢量数据库构建应用程序
Deeplearning.AI 为开发人员提供 ChatGPT 提示工程
LlamaIndex 的高级 RAG 编排系列
Coursera 的即时工程专业化
使用 Nvidia 的检索增强生成增强您的法学硕士
Deeplearning.AI 的 RAG 知识图谱
Deeplearning.AI 开源拥抱脸部模型
矢量数据库:Deeplearning.AI 从嵌入到应用
通过 Deeplearning.AI 理解和应用文本嵌入
JavaScript RAG Web 应用程序与 Deeplearning.AI 的 LlamaIndex
Deeplearning.AI 的拥抱面部量化基础知识
通过 Deeplearning.AI 预处理 LLM 应用程序的非结构化数据
Activeloop 使用 LangChain 和 LlamaIndex 进行生产检索增强生成
Deeplearning.AI 的深度量化
如果您想添加到存储库或发现任何问题,请随时提出PR并确保在相关部分或类别中正确放置。
要引用本指南,请使用以下格式:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT许可证]