生成式人工智能正在快速发展,这个存储库是生成式人工智能研究、采访材料、笔记本等更新的综合中心!
探索以下资源:
我们将定期更新此存储库,因此请留意最新的添加内容!
快乐学习!
*每月月底更新
日期 | 标题 | 抽象的 |
---|---|---|
2024 年 9 月 30 日 | MM1.5:多模式法学硕士微调的方法、分析和见解 | 我们推出了 MM1.5,这是一个新的多模态大语言模型 (MLLM) 系列,旨在增强丰富文本图像理解、视觉参考和基础以及多图像推理的能力。 MM1.5 基于 MM1 架构,采用以数据为中心的模型训练方法,系统地探索不同数据混合在整个模型训练生命周期中的影响。这包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调整数据混合。我们的模型范围从 1B 到 30B 参数,涵盖密集和专家混合 (MoE) 变体,并证明即使在小规模(1B 和 3B)下,仔细的数据管理和训练策略也可以产生强大的性能。此外,我们还引入了两个专门的变体:MM1.5-Video(专为视频理解而设计)和 MM1.5-UI(专为移动 UI 理解而设计)。通过广泛的实证研究和消融,我们提供了对训练过程和决策的详细见解,为我们的最终设计提供了信息,为 MLLM 开发的未来研究提供了宝贵的指导。 |
2024 年 9 月 26 日 | MIO:多模式代币的基础模型 | 在本文中,我们介绍了 MIO,这是一种基于多模态令牌构建的新型基础模型,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大语言模型(LLM)和多模态大语言模型(MM-LLM)的出现通过其多功能能力推动了通用人工智能的进步,但它们仍然缺乏真正的任意理解和生成。最近,GPT-4o 的发布展示了any-to-any LLM 在复杂的现实世界任务中的巨大潜力,实现了图像、语音和文本的全方位输入和输出。然而,它是闭源的,不支持多模态交错序列的生成。为了解决这一差距,我们提出了 MIO,它使用因果多模态模型对跨四种模态的离散标记的混合进行训练。 MIO 经历了四个阶段的训练过程:(1) 对齐预训练,(2) 交错预训练,(3) 语音增强预训练,(4) 对各种文本、视觉、图像等进行全面监督微调。和演讲任务。我们的实验结果表明,与之前的双模态基线、任意模型基线、甚至特定模态基线相比,MIO 表现出有竞争力的、在某些情况下更优越的性能。此外,MIO 展示了其任意功能固有的高级功能,例如交错视频文本生成、视觉思维链推理、视觉指南生成、教学图像编辑等。 |
2024 年 9 月 26 日 | MaskLLM:大型语言模型的可学习半结构化稀疏性 | 大型语言模型 (LLM) 的特点是参数数量庞大,这通常会导致大量冗余。这项工作引入了 MaskLLM,这是一种可学习的修剪方法,可在 LLM 中建立半结构化(或“N:M”)稀疏性,旨在减少推理过程中的计算开销。 MaskLLM 没有开发新的重要性标准,而是通过 Gumbel Softmax 采样将 N:M 模式显式建模为可学习的分布。这种方法有利于大规模数据集的端到端训练,并提供两个显着的优势:1)高质量掩模——我们的方法有效地扩展到大型数据集并学习准确的掩模; 2) 可迁移性——掩模分布的概率建模使得稀疏性跨域或任务的迁移学习成为可能。我们在各种 LLM(包括 LLaMA-2、Nemotron-4 和 GPT-3)上使用 2:4 稀疏度评估 MaskLLM,参数大小范围从 843M 到 15B,我们的实证结果显示比最先进的技术有显着改进方法。例如,与密集模型的 5.12 PPL 相比,领先方法在 Wikitext 上实现了 10 或更高的困惑度 (PPL),但 MaskLLM 仅通过学习具有冻结权重的掩模即可实现显着较低的 6.72 PPL。此外,MaskLLM 的可学习性质允许定制掩码,将 2:4 稀疏性无损应用到下游任务或域。代码可在 url{https://github.com/NVlabs/MaskLLM} 获取。 |
2024 年 9 月 25 日 | Molmo 和 PixMo:最先进的多模式模型的开放权重和开放数据 | 当今最先进的多式联运模型仍然是专有的。最强大的开放权重模型在很大程度上依赖于专有 VLM 的合成数据来实现良好的性能,从而有效地将这些封闭模型提炼为开放模型。因此,社区仍然缺乏有关如何从头开始构建高性能 VLM 的基础知识。我们推出 Molmo,这是一个新的 VLM 系列,在开放性方面是最先进的。我们的关键创新是一个新颖的、高度详细的图像标题数据集,该数据集完全从使用基于语音的描述的人类注释者那里收集。为了实现广泛的用户交互,我们还引入了用于微调的多样化数据集混合物,其中包括野外问答和创新的 2D 指向数据。我们方法的成功依赖于对模型架构细节的仔细选择、精心调整的训练管道,以及最关键的是我们新收集的数据集的质量,所有这些都将被发布。 Molmo 系列中一流的 72B 模型不仅在开放权重和数据模型类别中优于其他模型,而且在学术基准和人类评估方面也优于 GPT-4o、Claude 3.5 和 Gemini 1.5 等专有系统。我们将在不久的将来发布所有模型权重、字幕和微调数据以及源代码。选择模型权重、推理代码和演示可在 https://molmo.allenai.org 上获取。 |
2024 年 9 月 25 日 | VPTQ:大型语言模型的极低位向量训练后量化 | 扩展模型大小对大型语言模型 (LLM) 的部署和推理提出了巨大挑战。由于 LLM 权重的冗余,最近的研究重点是将仅权重量化推向极低位(甚至低至 2 位)。它降低了内存需求,优化了存储成本,并降低了推理过程中的内存带宽需求。然而,由于数值表示的限制,传统的基于标量的权重量化很难实现如此极端的低位。最近针对法学硕士的矢量量化 (VQ) 的研究证明了通过使用查找表将矢量压缩为索引来实现极低位模型量化的潜力。在本文中,我们介绍了用于 LLM 极低比特量化的矢量训练后量化 (VPTQ)。我们使用二阶优化来制定LLM VQ问题,并通过求解优化来指导我们的量化算法设计。我们使用与通道无关的二阶优化来进一步细化权重,以实现粒度 VQ。此外,通过分解优化问题,我们提出了一种简单有效的码本初始化算法。我们还扩展了 VPTQ 以支持残差和异常值量化,从而提高了模型精度并进一步压缩了模型。我们的实验结果表明,VPTQ 通过以下方式降低了模型量化困惑度: |
2024 年 9 月 24 日 | Time-MoE:由专家组成的十亿级时间序列基础模型 | 过去几十年来,时间序列预测的深度学习取得了重大进展。然而,尽管大规模预训练在语言和视觉领域取得了成功,但预训练时间序列模型的规模仍然有限,并且运行成本很高,阻碍了在实际应用中开发更强大的预测模型。为此,我们引入了 Time-MoE,这是一种可扩展且统一的架构,旨在预训练更大、能力更强的预测基础模型,同时降低推理成本。通过利用稀疏专家混合 (MoE) 设计,Time-MoE 通过仅激活每个预测的网络子集来提高计算效率,从而在保持高模型容量的同时减少计算负载。这使得 Time-MoE 能够有效地扩展,而不会相应增加推理成本。 Time-MoE 包含一系列仅解码器变压器模型,这些模型以自回归方式运行,并支持具有不同输入上下文长度的灵活预测范围。我们在新推出的大规模数据 Time-300B 上对这些模型进行了预训练,该数据跨越 9 个领域,涵盖超过 3000 亿个时间点。我们首次将时间序列基础模型扩展至 24 亿个参数,显着提高了预测精度。我们的结果验证了时间序列预测背景下训练标记和模型大小的缩放法则的适用性。与具有相同数量的激活参数或等效计算预算的密集模型相比,我们的模型始终大幅优于它们。这些进步使 Time-MoE 成为最先进的解决方案,能够以卓越的功能、效率和灵活性应对现实世界的时间序列预测挑战。 |
2024 年 9 月 23 日 | o1在医学上的初步研究:我们离人工智能医生更近了吗? | 大型语言模型(LLM)在各个领域和任务中表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 是第一个采用强化学习策略的内化思维链技术的法学硕士。虽然它在各种通用语言任务上表现出了惊人的强大能力,但它在医学等专业领域的表现仍然未知。为此,本报告对o1在不同医疗场景下进行了全面的探索,考察了理解、推理和多语言能力3个关键方面。具体来说,我们的评估涵盖 6 个任务,使用来自 37 个医学数据集的数据,其中包括两个基于《新英格兰医学杂志》(NEJM) 和《柳叶刀》的专业医学测验的新构建的更具挑战性的问答 (QA) 任务。与 MedQA 等标准医学 QA 基准相比,这些数据集提供了更大的临床相关性,可以更有效地转化为现实世界的临床实用性。我们对 o1 的分析表明,法学硕士推理能力的增强可能(显着)有利于他们理解各种医疗指令并通过复杂的临床场景进行推理的能力。值得注意的是,o1 在 19 个数据集和两个新创建的复杂 QA 场景中的准确率平均超过了之前的 GPT-4 6.2% 和 6.6%。但与此同时,我们发现模型能力和现有评估协议中存在一些弱点,包括幻觉、多语言能力不一致以及评估指标不一致。我们在 https://ucsc-vlaa.github.io/o1_medicine/ 发布原始数据和模型输出以供未来研究。 |
2024 年 9 月 21 日 | 不进行指令调整而遵循指令 | 指令调优通常意味着在指令-响应对上微调语言模型。我们发现两种形式的适应(调整)与指令调整相比有缺陷,但仍然产生指令跟随;我们称之为隐式指令调整。我们首先发现指令-响应对是不必要的:仅根据响应进行训练,没有任何相应的指令,会产生指令跟随。这表明预训练模型具有指令-响应映射,该映射是通过向模型教授所需的响应分布来揭示的。然而,我们发现没有必要教授所需的响应分布:对诗歌等窄域数据的指令响应训练仍然会导致广泛的指令遵循行为,如食谱生成。特别是,当指令与窄微调域中的指令非常不同时,模型的响应不遵循微调域的风格。为了开始解释隐式指令调整,我们假设对语言模型的分布进行非常简单的更改会产生指令跟随。我们通过手写一个基于规则的语言模型来支持这一点,该模型在具有预训练模型的专家产品中产生指令。规则是慢慢增加结束序列的概率,惩罚重复,统一改变15个单词的概率。总之,没有被设计为产生指令遵循的调整可以隐式地这样做。 |
2024 年 9 月 20 日 | 想象一下你自己:免调整个性化图像生成 | 扩散模型在各种图像到图像任务中表现出了显着的功效。在这项研究中,我们介绍了 Imagine myself,这是一种专为个性化图像生成而设计的最先进模型。与传统的基于调整的个性化技术不同,想象自己作为免调整模型运行,使所有用户能够利用共享框架而无需进行个性化调整。此外,之前的工作遇到了平衡身份保留、遵循复杂提示和保持良好视觉质量的挑战,导致模型具有很强的参考图像复制粘贴效果。因此,他们很难根据需要对参考图像进行重大改变(例如改变面部表情、头部和身体姿势)的提示来生成图像,并且生成的图像的多样性很低。为了解决这些限制,我们提出的方法引入了 1) 一种新的合成配对数据生成机制,以鼓励图像多样性,2) 具有三个文本编码器和一个完全可训练的视觉编码器的完全并行注意架构,以提高文本忠实度,以及 3)新颖的从粗到细的多阶段微调方法,逐渐突破视觉质量的界限。我们的研究表明,想象自己超越了最先进的个性化模型,在身份保存、视觉质量和文本对齐方面表现出卓越的能力。该模型为各种个性化应用程序奠定了坚实的基础。人类评估结果验证了该模型与之前的个性化模型相比在各个方面(身份保存、文本忠实度和视觉吸引力)的 SOTA 优越性。 |
2024 年 9 月 19 日 | 通过强化学习训练语言模型进行自我纠正 | 自我修正是大型语言模型 (LLM) 非常理想的功能,但人们一直发现它在现代 LLM 中基本上无效。当前的自我校正训练方法通常依赖于多个模型、更高级的模型或其他形式的监督。为了解决这些缺点,我们开发了一种多轮在线强化学习(RL)方法 SCoRe,该方法使用完全自我生成的数据显着提高了法学硕士的自我纠正能力。为了构建 SCoRe,我们首先证明离线模型生成的校正轨迹上的监督微调 (SFT) 的变体通常不足以灌输自我校正行为。特别是,我们观察到,通过 SFT 进行的训练要么会受到数据收集策略所犯错误与模型自身响应之间的分布不匹配的影响,要么会导致行为崩溃,其中学习隐含地只倾向于某种纠正行为模式,而这种模式通常是不能有效地自我纠正测试问题。 SCoRe 通过在模型自身的自生成校正轨迹分布下进行训练,并使用适当的正则化来引导学习过程学习在测试时有效的自我校正行为,而不是针对给定的高奖励响应来解决这些挑战迅速的。该正则化过程包括在基础模型上进行多轮强化学习的初始阶段,以生成不易崩溃的策略初始化,然后使用奖励奖金来放大自我修正。通过 Gemini 1.0 Pro 和 1.5 Flash 模型,我们发现 SCoRe 实现了最先进的自校正性能,将基础模型在 MATH 和 HumanEval 上的自校正性能分别提高了 15.6% 和 9.1%。 |
2024 年 9 月 19 日 | 智能扩展:通过小模型初始化加速大型语言模型预训练 | 语言模型的预训练阶段通常从随机初始化参数开始。根据当前缩放模型的趋势,训练大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们往往无法达到大型模型的准确性。在本文中,我们探索了一个有趣的想法来连接这两种不同的机制:我们能否开发一种使用较小的预训练模型来初始化大型语言模型的方法?这样的初始化会在训练时间和最终精度方面带来任何好处吗?在本文中,我们介绍了超克隆,这是一种可以将预训练语言模型的参数扩展到具有增加的隐藏维度的更大模型的参数的方法。我们的方法确保较大的模型保留较小模型的功能。因此,在训练开始之前,较大的模型已经继承了较小模型的预测能力和准确性。我们证明,训练这样一个初始化模型可以显着节省预训练大型语言模型所需的 GPU 时间。 |
2024 年 9 月 18 日 | Qwen2.5-Coder技术报告 | 在本报告中,我们介绍了Qwen2.5-Coder系列,这是对其前身CodeQwen1.5的重大升级。该系列包括两个型号:Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B。作为特定于代码的模型,Qwen2.5-Coder 基于 Qwen2.5 架构构建,并继续在超过 5.5 万亿个代币的庞大语料库上进行预训练。通过细致的数据清理、可扩展的合成数据生成和平衡的数据混合,Qwen2.5-Coder 展示了令人印象深刻的代码生成功能,同时保留了通用性。该模型已在广泛的代码相关任务上进行了评估,在 10 多个基准测试中实现了最先进 (SOTA) 的性能,包括代码生成、完成、推理和修复,始终优于大型模型相同型号尺寸。我们相信,Qwen2.5-Coder 系列的发布不仅将突破代码智能研究的界限,而且通过其宽松的许可,鼓励开发人员在实际应用中更广泛地采用。 |
2024 年 9 月 18 日 | 法学硕士长上下文扩展和泛化的对照研究 | 广泛的文本理解和上下文学习需要利用完整文档上下文的语言模型。由于与直接训练长上下文模型相关的实现挑战,人们提出了许多方法来扩展模型以处理长上下文。然而,由于数据和模型类别的差异,比较这些方法一直具有挑战性,导致如何评估长上下文性能以及它是否与标准评估不同存在不确定性。我们利用一致的基础模型和扩展数据,通过标准化评估实现了扩展方法的受控协议。我们的研究对长情境行为产生了一些见解。首先,我们重申困惑度作为通用绩效指标的关键作用,即使在较长上下文的任务中也是如此。其次,我们发现当前的近似注意力方法在长上下文任务中系统地表现不佳。最后,我们确认基于精确微调的方法在其扩展范围内通常是有效的,而外推仍然具有挑战性。所有代码库、模型和检查点都将开源,从而提高透明度并促进人工智能开发这一关键领域的进一步研究。 |
2024 年 9 月 18 日 | LLM + Persona-Plug = 个性化 LLM | 个性化在许多语言任务和应用程序中起着至关重要的作用,因为具有相同需求的用户可能会根据个人兴趣更喜欢不同的输出。这导致了各种个性化方法的发展,旨在适应大型语言模型(LLM)以生成符合用户偏好的定制输出。其中一些涉及为每个用户微调独特的个性化LLM,这对于广泛应用来说过于昂贵。替代方法通过检索用户的相关历史文本作为演示,以即插即用的方式引入个性化信息。然而,这种基于检索的策略可能会破坏用户历史的连续性,并且无法捕获用户的整体风格和模式,从而导致性能次优。为了应对这些挑战,我们提出了一种新颖的个性化 LLM 模型,ours{}。它通过轻量级插件用户嵌入器模块对每个人的所有历史上下文进行建模,为每个人构建特定于用户的嵌入。通过将这种嵌入附加到任务输入中,法学硕士可以更好地理解和捕获用户习惯和偏好,从而产生更个性化的输出,而无需调整自己的参数。对语言模型个性化 (LaMP) 基准中的各种任务进行的广泛实验表明,所提出的模型显着优于现有的个性化 LLM 方法。 |
2024 年 9 月 17 日 | NVLM:开放前沿级多模式法学硕士 | 我们推出了 NVLM 1.0,这是一系列前沿级多模态大语言模型 (LLM),可在视觉语言任务上取得最先进的结果,可与领先的专有模型(例如 GPT-4o)和开放获取相媲美型号(例如 Llama 3-V 405B 和 InternVL 2)。值得注意的是,在多模式训练后,NVLM 1.0 在其 LLM 主干上显示出改进的纯文本性能。在模型设计方面,我们对仅解码器的多模态 LLM(例如 LLaVA)和基于交叉注意力的模型(例如 Flamingo)进行了全面比较。基于这两种方法的优点和缺点,我们提出了一种新颖的架构,可以提高训练效率和多模态推理能力。此外,我们还为基于图块的动态高分辨率图像引入了一维图块标记设计,这显着提高了多模态推理和 OCR 相关任务的性能。关于训练数据,我们精心策划并提供有关多模式预训练和监督微调数据集的详细信息。我们的研究结果表明,即使在所有架构的预训练阶段,数据集质量和任务多样性也比规模更重要。值得注意的是,我们为 NVLM-1.0 模型开发了生产级多模态,使它们能够在视觉语言任务中表现出色,同时与 LLM 主干相比,保持甚至提高纯文本性能。为了实现这一目标,我们精心制作了高质量的纯文本数据集,并将其与大量多模态数学和推理数据一起集成到多模态训练中,从而增强了跨模态的数学和编码能力。为了推进该领域的研究,我们正在发布模型权重,并将为社区开源代码:https://nvlm-project.github.io/。 |
2024 年 9 月 17 日 | Promptriever:经过指令训练的检索器可以像语言模型一样进行提示 | 指令调整语言模型 (LM) 能够响应命令式命令,提供比基本模型更自然的用户界面。在这项工作中,我们提出了 Promptriever,这是第一个能够像 LM 一样提示的检索模型。为了训练 Promptriever,我们策划并发布了 MS MARCO 的新实例级指令训练集,涵盖近 50 万个实例。 Promptriever 不仅在标准检索任务上表现出色,而且还能遵循指令。我们观察到:(1)遵循详细的相关指令(FollowIR 上+14.3 p-MRR / +3.1 nDCG)获得巨大收益(达到 SoTA),(2)查询+指令中词汇选择/措辞的鲁棒性显着提高(+12.9) Robustness@10(InstructIR 上),以及 (3) 通过提示执行超参数搜索的能力,以可靠地提高检索性能(BEIR 平均提高 1.4)。 Promptriever 演示了可以通过每个查询的提示来控制检索模型,为未来将 LM 提示技术与信息检索相结合的工作奠定基础。 |
2024 年 9 月 17 日 | 量化指令调整大型语言模型的综合评估:高达 405B 的实验分析 | 先前的研究工作使用有限的指标(例如困惑度或一些基本知识任务和旧数据集)评估了量化的法学硕士。此外,最近的大型模型(例如高达 405B 的 Llama 3.1)尚未经过彻底检查。本文评估了指令调整的 LLM 在 7B 到 405B 模型上跨各种量化方法(GPTQ、AWQ、SmoothQuant 和 FP8)的性能。我们使用 13 个基准来评估六种任务类型的表现:常识问答、知识和语言理解、指令遵循、幻觉检测、数学和对话。我们的主要发现表明,(1) 将较大的 LLM 量化为与较小的 FP16 LLM 相似的大小,通常在大多数基准测试中表现更好,除了幻觉检测和指令遵循之外; (2) 性能随着量化方法、模型大小和位宽的不同而显着变化,仅权重方法通常在较大模型中产生更好的结果; (3) 任务难度不会显着影响量化导致的精度下降; (4) MT-Bench 评估方法对近期表现优异的法学硕士的歧视能力有限。 |
2024 年 9 月 16 日 | RetrievalAttention:通过向量检索加速长上下文 LLM 推理 | 基于 Transformer 的大型语言模型 (LLM) 变得越来越重要。然而,由于注意力计算的二次时间复杂度,将 LLM 扩展到更长的上下文会导致极慢的推理延迟和用于缓存键值 (KV) 向量的高 GPU 内存消耗。本文提出了 RetrievalAttention,这是一种无需训练的方法,可以加速注意力计算并减少 GPU 内存消耗。通过利用注意力机制的动态稀疏性,RetrievalAttention提出对CPU内存中的KV向量使用近似最近邻搜索(ANNS)索引,并在生成过程中通过向量搜索检索最相关的向量。不幸的是,我们观察到,由于注意机制中查询向量和关键向量之间存在分布外(OOD),现成的 ANNS 索引通常对于此类检索任务无效。 RetrievalAttention 通过设计一种能够适应查询向量分布的注意力感知向量搜索算法来解决 OOD 挑战。我们的评估表明,RetrievalAttention 只需要访问 1--3% 的数据,同时保持较高的模型精度。这可以显着降低长上下文 LLM 的推理成本,同时 GPU 内存占用量也低得多。特别是,RetrievalAttention 只需要一个 NVIDIA RTX4090 (24GB) 即可在具有 8B 参数的 LLM 中提供 128K 令牌,能够在 0.188 秒内生成一个令牌。 |
2024 年 9 月 16 日 | 柯尔莫哥洛夫-阿诺德变压器 | Transformer 是现代深度学习的基石。传统上,这些模型依赖多层感知器 (MLP) 层来混合通道之间的信息。在本文中,我们介绍了柯尔莫哥洛夫-阿诺德变换器(KAT),这是一种用柯尔莫哥洛夫-阿诺德网络(KAN)层取代 MLP 层的新颖架构,以增强模型的表达能力和性能。然而,将 KAN 集成到 Transformer 中并不是一件容易的事,尤其是在扩大规模时。具体来说,我们确定了三个关键挑战:(C1)基础功能。 KAN 中使用的标准 B 样条函数并未针对现代硬件上的并行计算进行优化,导致推理速度较慢。 (C2) 参数和计算效率低下。 KAN 需要每个输入输出对都有一个独特的函数,这使得计算量非常大。 (C3)权重初始化。 KAN 中权重的初始化特别具有挑战性,因为它们具有可学习的激活函数,这对于实现深度神经网络的收敛至关重要。为了克服上述挑战,我们提出了三个关键解决方案:(S1)理性基础。我们用有理函数替换 B 样条函数,以提高与现代 GPU 的兼容性。通过在 CUDA 中实现这一点,我们实现了更快的计算。 (S2) KAN 组。我们通过一组神经元共享激活权重,以在不牺牲性能的情况下减少计算负载。 (S3) 保持方差的初始化。我们仔细初始化激活权重,以确保跨层保持激活方差。通过这些设计,KAT 可以有效地进行扩展,并轻松超越传统的基于 MLP 的变压器。 |
2024 年 9 月 16 日 | 论思维图 | 我们引入了思维图 (DoT),这是一个框架,它将大型语言模型 (LLM) 中的迭代推理建模为在单个模型中构建有向无环图 (DAG)。与将推理表示为线性链或树的传统方法不同,DoT 将命题、批评、改进和验证组织成内聚的 DAG 结构,使模型能够探索复杂的推理路径,同时保持逻辑一致性。图中的每个节点对应一个已被提出、批评、完善或验证的命题,使法学硕士能够通过自然语言反馈迭代地改进其推理。通过利用具有特定于角色的令牌的自动回归下一个令牌预测,DoT 促进提出想法和批判性评估它们之间的无缝过渡,从而提供比二进制信号更丰富的反馈。此外,我们使用拓扑理论形式化了 DoT 框架,提供了确保推理过程中逻辑一致性和健全性的数学基础。这种方法增强了单个法学硕士内的训练和推理过程,消除了对多个模型或外部控制机制的需要。 DoT 为设计下一代推理专用模型提供了概念框架,强调训练效率、强大的推理能力和理论基础。该代码可在 https://github.com/diagram-of-thought/diagram-of-thought 获取。 |
2024 年 9 月 12 日 | DSBench:数据科学代理距离成为数据科学专家还有多远? | 大型语言模型(LLM)和大型视觉语言模型(LVLM)已经展示了令人印象深刻的语言/视觉推理能力,点燃了为购物助理或人工智能软件工程师等目标应用构建代理的最新趋势。最近,人们提出了许多数据科学基准来研究它们在数据科学领域的表现。然而,由于设置的简化,现有的数据科学基准与现实世界的数据科学应用程序相比仍然存在不足。为了弥补这一差距,我们引入了 DSBench,这是一个综合基准测试,旨在评估具有实际任务的数据科学代理。该基准包括 466 个数据分析任务和 74 个数据建模任务,这些任务来自 Eloquence 和 Kaggle 竞赛。 DSBench通过涵盖长上下文,多模式的任务背景,具有大数据文件和多桌结构的推理以及执行端到端数据建模任务,提供了现实的设置。我们对最先进的LLM,LVLM和代理商的评估表明,它们在大多数任务上都很挣扎,最佳代理只能解决34.12%的数据分析任务,并达到34.74%的相对性能差距(RPG)。这些发现强调了在开发更实用,聪明和自治的数据科学代理商方面进一步发展的必要性。 |
2024 年 9 月 10 日 | Pingpong:具有用户仿真和多模型评估的角色扮演语言模型的基准 | 我们介绍了一种新颖的基准,用于评估语言模型的角色扮演能力。我们的方法利用语言模型本身来模仿动态,多转交谈的用户,并评估由此产生的对话。该框架由三个主要组成部分组成:假设特定角色角色的玩家模型,模拟用户行为的询问器模型以及评估对话质量的法官模型。我们进行了实验,将自动化评估与人类注释进行比较以验证我们的方法,从而证明了跨多个标准的牢固相关性。这项工作为在交互式方案中对模型功能进行了强大而动态的评估为基础。 |
2024 年 9 月 10 日 | Llama-omni:与大语言模型的无缝语音互动 | GPT-4o 等模型可以通过语音与大型语言模型 (LLM) 进行实时交互,与传统的基于文本的交互相比,显着增强了用户体验。但是,仍然缺乏关于如何基于开源LLM构建语音互动模型的探索。为了解决这个问题,我们提出了Llama-Omni,这是一种新型的模型架构,旨在与LLMS的低延迟和高质量的语音相互作用。 Llama-Omni整合了验证的语音编码器,语音适配器,LLM和流式演讲解码器。它消除了对语音转录的需求,并且可以直接从延迟极低的语音说明中同时生成文本和语音响应。我们基于最新的Llama-3.1-8b-Inscruct模型来构建模型。为了使模型与语音互动方案保持一致,我们构建了一个名为Cunderts2S-200K的数据集,其中包括200K语音说明和相应的语音响应。实验结果表明,与以前的语音语言模型相比,Llama-Omni在内容和样式方面提供了更好的响应,响应潜伏期低至226ms。此外,训练Llama-Omni仅在4个GPU中需要不到3天,这为将来的语音语言模型有效地开发铺平了道路。 |
2024 年 9 月 10 日 | 大型语言模型可以解锁新颖的科学研究思想吗? | “一个想法无非是旧元素的新组合”(Young,JW)。广泛采用大型语言模型(LLM)和公开可用的CHATGPT已标志着人工智能(AI)集成到人们日常生活中的一个重大转折点。这项研究探讨了LLM在基于研究论文的信息中生成新颖的研究思想方面的能力。我们对五个领域(例如化学,计算机,经济学,医学和物理学)进行了彻底检查。我们发现,Claude-2和GPT-4产生的未来研究思想比作者的观点比GPT-3.5和Gemini更一致。我们还发现,Claude-2比GPT-4,GPT-3.5和Gemini 1.0产生更多的未来研究思想。我们进一步对生成的未来研究思想的新颖性,相关性和可行性进行了人类评估。这项调查提供了对LLM在思想产生中不断发展的作用的见解,强调了其能力和局限性。我们的工作有助于评估和利用语言模型来产生未来的研究思想的持续努力。我们公开提供数据集和代码。 |
2024 年 9 月 9 日 | SongCreator:基于歌词的通用歌曲一代 | 音乐是人类文化不可或缺的一部分,体现了人类的智慧和创造力,歌曲构成了必不可少的部分。虽然以前的作品已经探索了歌曲发行的各个方面,例如唱歌声音,人声作曲和乐器安排等,它们的歌词与歌词同时产生歌曲仍然是一个巨大的挑战,这阻碍了音乐生成模型的应用现实世界。从这个角度来看,我们提出了SongCreator,这是一种旨在应对这一挑战的歌曲生成系统。该模型具有两种新颖的设计:精心设计的双序列语言模型(DSLM),以捕获歌曲发行的人声和伴奏的信息,以及DSLM的其他注意力掩码策略,该策略允许我们的模型理解,生成和编辑歌曲,使其适用于各种与歌曲有关的一代任务。广泛的实验通过在所有八个任务上实现最先进的表现或竞争性表演来证明歌手的有效性。值得注意的是,它超过了以前的作品,歌词对歌曲和歌词 - 唱歌的差距很大。此外,它能够通过不同的提示独立控制人声和伴奏的声学条件,从而表现出其潜在的适用性。我们的样品可在https://songcreator.github.io/上找到。 |
2024 年 9 月 9 日 | 超级代理:通才软件工程代理商以大规模解决编码任务 | 大型语言模型(LLM)彻底改变了软件工程(SE),在各种编码任务中表现出了出色的功能。尽管最近的努力已经为端到端开发任务生产了基于LLM的自主软件代理,但这些系统通常是为特定的SE任务而设计的。我们介绍了Hyper Agent,这是一种新型的通用多代理系统,旨在通过模仿人类开发人员的工作流程来解决不同编程语言的各种SE任务。包括四个专业代理 - 规划师,导航器,代码编辑器和执行人。超级代理管理SE任务的完整生命周期,从初始概念到最终验证。通过广泛的评估,Hyperagent在不同的SE任务中实现了最先进的表现:它在SWE-Bench-Lite上达到了25.01%的成功率,而SWE-Bench-Lite的成功率为31.40%,而SWE-Bench验证的github发行问题已超过现有方法。此外,超级代理在存储库级代码生成(RepoExec)以及故障本地化和程序维修(缺陷4J)中表现出SOTA性能,通常表现优于专用系统。这项工作代表了能够处理各种领域和语言的复杂,多步骤SE任务的多功能,自主代理的重大进步,有可能改变AI辅助软件开发实践。 |
2024 年 9 月 9 日 | 备忘录:通过记忆启发的知识发现朝着下一代抹布迈进 | 检索增强生成(RAG)利用检索工具访问外部数据库,从而通过优化的上下文提高了大语言模型(LLMS)的发电质量。但是,现有的检索方法是固有的,因为它们只能在明确指定的查询和良好的知识之间执行相关性匹配,但无法处理涉及含糊的信息需求或非结构化知识的任务。因此,现有的抹布系统主要用于直接提出问题的任务。在这项工作中,我们提出了Memorag,这是一种新颖的检索型一代范式,由长期记忆赋予了能力。 Memorag采用双层系统体系结构。一方面,它采用轻但长期的LLM来形成数据库的全局内存。提出任务后,它将生成草稿答案,并提出检索工具以在数据库中找到有用的信息。另一方面,它利用了昂贵但富有表现力的LLM,它根据检索到的信息产生了最终答案。在这个一般框架的基础上,我们通过增强其曲折机制和记忆能力来进一步优化Memorag的性能。在我们的实验中,Memorag在各种评估任务中都取得了卓越的性能,其中包括常规RAG失败的复杂任务和通常应用抹布的简单性能。 |
2024 年 9 月 8 日 | OneGen:LLM的有效的一通统一生成和检索 | 尽管最新的大语言模型(LLMS)取得了进步,这些模型显着增强了各种NLP任务的生成能力,但LLMS仍面临直接处理检索任务的限制。但是,许多实际应用都需要取回和发电的无缝整合。本文介绍了一个新颖有效的一通生成和检索框架(OneGen),旨在提高LLMS在需要生成和检索的任务上的性能。拟议的框架通过合并自动加入的检索令牌来弥合传统上单独的培训方法,以进行生成和检索。这使一个LLM能够在统一的正向通行证中同时处理这两个任务。我们对两种不同类型的综合任务进行了实验,即抹布和实体联系,以验证OneGen在训练和推理中的可怕性,有效性和效率。此外,我们的结果表明,在同一上下文中集成生成和检索可以保留LLM的生成能力,同时提高检索性能。据我们所知,OneGen是第一个使LLM能够在这一代人过程中进行矢量检索的人。 |
2024 年 9 月 6 日 | 纸质副驾驶:一种自我发展且高效的LLM系统,用于个性化学术帮助 | 随着科学研究的繁殖,研究人员面临着导航和阅读大量文献的艰巨任务。现有的解决方案,例如文档质量检查,无法有效地提供个性化和最新信息。我们提出了纸质副标士,这是一种自我发展,有效的LLM系统,旨在根据思想回溯,用户概况和高性能优化来协助研究人员。具体而言,Paper Copilot可以提供个性化的研究服务,并维护实时更新的数据库。定量评估表明,有效部署后,Paper Copilot节省了69.92%的时间。本文详细介绍了纸质副标士的设计和实施,强调了其对个性化学术支持的贡献及其简化研究过程的潜力。 |
2024 年 9 月 5 日 | 大型语言模型的注意力头:调查 | 自Chatgpt出现以来,大型语言模型(LLM)在各种任务中都表现出色,但仍然是黑盒系统。因此,LLM的推理瓶颈主要受其内部建筑的影响。结果,许多研究人员已经开始探索LLM的潜在内部机制,大多数研究都集中在注意力头上。我们的调查旨在通过专注于注意力头的潜在机制来阐明LLM的内部推理过程。我们首先将人类的思维过程提炼成一个四阶段的框架:知识回忆,秘密识别,潜在的推理和表达准备。使用此框架,我们系统地检查了现有的研究,以识别和分类特定注意力头的功能。此外,我们总结了用于发现这些特殊头部的实验方法,将它们分为两类:无建模方法和建模的方法。此外,我们概述了相关的评估方法和基准。最后,我们讨论当前研究的局限性,并提出了几个潜在的未来方向。 |
2024 年 9 月 5 日 | 您的代码llms如何执行?使用高质量数据授权代码指令调整 | 最近,人们对研究如何构建更好的代码说明调整数据的兴趣越来越大。但是,我们观察到经过这些数据集训练的代码模型在HumaneVal上表现出高性能,但在其他基准测试(例如LiveCodebench)上的性能较差。经过进一步的调查,我们发现许多数据集都遭受严重数据泄漏。清理大多数泄漏数据后,一些众所周知的高质量数据集的性能差。该发现揭示了一个新的挑战:确定哪些数据集真正符合高质量代码指令数据。为了解决这个问题,我们提出了一个有效的代码数据修剪策略,以选择好样本。我们的方法基于三个维度:教学复杂性,响应质量和指导多样性。根据我们所选的数据,我们提出了Xcoder,这是一个从Llama3进行的模型家族。我们的实验表明,Xcoder使用较少的培训数据实现了新的最先进性能,从而验证了我们的数据策略的有效性。此外,我们对数据组合进行了全面的分析,并根据其构造方法发现现有代码数据集具有不同的特征,该方法为将来的代码LLM提供了新的见解。我们的模型和数据集在https://github.com/banksy23/xcoder中发布 |
2024 年 9 月 5 日 | 从MOOC到MAIC:通过LLM驱动的代理商重塑在线教学 | 自从将课程上传到可访问和共享的在线平台的首次在线教育实例以来,这种扩展人类知识以吸引更广泛的受众的形式引发了广泛的讨论和广泛的采用。认识到个性化学习仍然具有改进的巨大潜力,新的AI技术已不断整合到这种学习形式中,从而导致了各种教育AI应用,例如教育建议和智能辅导。大语模型(LLM)中智能的出现允许这些教育增强能够建立在统一的基础模型上,从而可以更深入地整合。在这种情况下,我们提出了MAIC(大规模AI授权课程),这是一种新形式的在线教育,利用LLM驱动的多机构系统来构建AI-EAGMEAG教室,平衡可扩展性与适应性平衡。除了探索概念框架和技术创新外,我们还在中国领先的大学之一Tsinghua University进行初步实验。我们从超过500名学生的100,000多个学习记录中汲取了一系列有价值的观察和初步分析。该项目将继续发展,最终旨在建立一个全面的开放平台,该平台支持并统一研究,技术和应用,以探索大型模型AI时代的在线教育的可能性。我们将这个平台设想为合作枢纽,将教育者,研究人员和创新者聚集在一起,共同探索AI驱动的在线教育的未来。 |
2024年9月4日 | longcite:使llms能够在长篇下说qa中产生细粒度的引用 | 尽管当前的长上下文大语言模型(LLM)在基于大量文本回答用户问题方面表现出了令人印象深刻的能力,但其答复中缺乏引用使得用户验证变得困难,导致由于其潜在的幻觉而导致对其可信度的担忧。在这项工作中,我们旨在使长篇小说LLMs能够以细粒度的句子级别的引用来产生响应,从而提高其忠诚和验证性。我们首先介绍Longbench-cite,这是一种自动化基准,用于评估当前LLM的长篇小说中的llms的性能(LQAC)(LQAC),揭示了相当大的改进空间。为此,我们提出了COF(粗到罚款),这是一种利用现成的LLMS的新型管道,以精确的句子级别的引用自动生成长篇小说QA实例,并利用此管道将longcite-45K,一个LQAC的大规模SFT数据集。最后,我们使用Longcite-45K数据集训练Longcite-8B和Longcite-9B,成功地使他们能够在单个输出中产生准确的响应和细粒度的句子级别。 Longbench-cite上的评估结果表明,我们训练有素的模型达到了最先进的引文质量,超过了包括GPT-4O在内的高级专有模型。 |
2024年9月4日 | Longllava:通过混合体系结构有效地将多模式LLMS缩放到1000张图像 | 扩展多模式大语言模型〜(MLLM)的长期文化功能对于视频理解,高分辨率图像理解和多模式代理至关重要。这涉及一系列系统的优化,包括模型体系结构,数据构建和培训策略,特别是解决诸如 textit {具有更多图像的降级性能}和 textit {高计算成本}之类的挑战。在本文中,我们将模型体系结构调整到Mamba和Transformer块的混合体中,在多个图像中使用时间和空间依赖性接近数据构建,并采用了渐进式培训策略。发布的模型 textbf {longllava}〜( textbf {long} -context textbf {l} arge textbf {l} arguage textbf textbf {a} nd textbf {v}第一个混合MLLM,在效率和有效性之间取得了更好的平衡。 Longllava不仅在各种基准中取得了竞争成果,而且还保持了高吞吐量和低记忆消耗。特别是,它可以在单个A100 80GB GPU上处理近一千张图像,从而显示出各种任务的有希望的应用程序前景。 |
2024年9月4日 | 朝着对大语言模型的偏好学习的统一观点:一项调查 | 大型语言模型 (LLM) 展现出非常强大的功能。取得成功的关键因素之一是将LLM的产出与人类偏好保持一致。这种对齐过程通常只需要少量数据来有效提高LLM的性能。尽管有效,但在该领域的研究跨越了多个领域,并且所涉及的方法相对复杂。不同方法之间的关系尚未探索,从而限制了偏好比对的发展。鉴于此,我们将现有的流行对齐策略分解为不同的组成部分,并提供了一个统一的框架来研究当前的一致性策略,从而在其中建立了联系。在这项调查中,我们将偏好学习中的所有策略分解为四个组成部分:模型,数据,反馈和算法。这种统一的观点对现有的一致性算法有深入的了解,并为协同不同策略的优势提供了可能性。此外,我们介绍了普遍现有算法的详细工作示例,以促进读者的全面理解。最后,根据我们的统一观点,我们探讨了将大语言模型与人类偏好保持一致的挑战和未来研究方向。 |
2024年9月4日 | 通过多转弯偏好学习建造数学代理 | 最近的研究表明,可以通过集成诸如代码解释器之类的外部工具并采用多转化链链(COT)推理来增强大型语言模型(LLMS)数学解决问题的能力。尽管当前的方法着重于合成数据生成和监督微调(SFT),但本文研究了互补的直接偏好学习方法,以进一步提高模型性能。但是,现有的直接偏好学习算法最初是为单转聊任务而设计的,并且没有完全解决工具集成数学推理任务所需的多转弯推理和外部工具集成的复杂性。为了填补这一空白,我们引入了一个针对此上下文量身定制的多转弯直接偏好学习框架,该框架利用代码解释者的反馈并优化了轨迹级别的偏好。该框架包括多转移DPO和多转移KTO作为特定的实现。通过使用GSM8K和数学数据集设置的增强提示,通过培训各种语言模型来验证我们框架的有效性。我们的结果表明了实质性改进:受监督的微调Gemma-1.1-It-7b模型的性能从GSM8K的77.5%增加到83.9%,从46.1%增加到数学的51.2%。同样,GEMMA-2-IT-9B模型从GSM8K的84.1%提高到86.3%,数学上的51.0%提高到51.0%。 |
2024 年 9 月 3 日 | OLMoE:开放专家混合语言模型 | 我们介绍了Olmoe,这是一种完全开放的,最先进的语言模型,利用了稀疏的Experts(MOE)。 Olmoe-1b-7b具有70亿(B)参数,但每个输入令牌仅使用1B。我们在5万亿个令牌上预算了它,并进一步调整了Olmoe-1b-7b-r-Instruct。我们的模型优于所有具有相似活动参数的可用模型,甚至超过了较大的模型,例如Llama2-13b-chat和DeepSeekmoe-16b。我们介绍了有关MOE培训的各种实验,在模型中分析表现高专业化的路由以及开源我们工作的各个方面:模型权重,培训数据,代码和日志。 |
2024 年 9 月 2 日 | Genagent:建立具有自动化工作流程的协作AI系统 - comfyui的案例研究 | 许多先前的AI研究都集中在开发整体模型以最大程度地提高其智能和能力,其主要目标是提高特定任务的性能。相比之下,本文探讨了一种替代方法:使用工作流以整合模型,数据源和管道来解决复杂而多样化的任务的协作AI系统。我们介绍了基于LLM的框架Genagent,该框架自动生成复杂的工作流程,与单片模型相比,具有更大的灵活性和可扩展性。 Genagent的核心创新在于用代码代表工作流程,并以逐步的方式与协作代理一起构建工作流程。我们在comfyui平台上实施了基因,并提出了一个新的基准OpenComfy。结果表明,Genagent在跑步级别和任务级别的评估中都超过了基线方法,显示了其能力产生具有卓越有效性和稳定性的复杂工作流程。 |
2024 年 9 月 2 日 | Videollamb:带有复发记忆桥的长篇小说视频理解 | 大规模视频语言模型的最新进展显示了实时计划和详细互动的巨大潜力。但是,他们的高计算需求和注释数据集的稀缺性限制了学术研究人员的实用性。在这项工作中,我们介绍了Videollamb,这是一个新颖的框架,该框架利用桥梁层中的时间内存令牌,以允许在历史视觉数据的同时对整个视频序列进行编码,从而有效地保留了语义连续性并增强了各种任务的模型性能。这种方法包括经常性的内存令牌和场景算法,将视频分为独立的语义单元以保持语义完整性。从经验上讲,Videollamb显着超过了现有的视频语言模型,在三个VideoQA基准测试中的竞争对手比其竞争对手相比有5.5分,而以Egipentric计划的2.06分。 MVBENCH上的全面结果表明,Videollamb-7b比以前的同一LLM模型取得明显更好的结果。值得注意的是,即使视频长度增加了8次,它仍保持强劲的性能。此外,在视频干草(NIAVH)基准测试中,我们的专门针头的框架检索结果进一步验证了Videollamb的能力,可以准确地识别冗长的视频中的特定帧。我们的场景算法还可以直接生成流视频字幕,而无需进行其他培训。在效率方面,通过16帧培训的Videollamb在单个NVIDIA A100 GPU上最多支持320帧,并具有线性GPU内存缩放,确保了高性能和成本效益,从而为长期视频语言树立了新的基础学术和实际应用中的模型。 |
2024年9月1日 | ContextCite:将模型生成归因于上下文 | 语言模型在生成响应时如何使用提供的信息作为上下文?我们可以推断出特定生成的陈述是在上下文,误解还是被捏造的?为了帮助回答这些问题,我们介绍了上下文归因的问题:查明上下文的部分(如果有)导致模型生成特定语句的部分。然后,我们提出上下文Cite,这是一种简单且可扩展的方法,用于上下文归因,可以在任何现有语言模型的顶部应用。最后,我们通过三个应用程序展示 ContextCite 的实用性:(1)帮助验证生成的语句(2)通过修剪上下文来提高响应质量以及(3)检测中毒攻击。我们在https://github.com/madrylab/context-cite上提供上下文列表的代码。 |
2024 年 8 月 31 日 | LongRecipe:在大语言模型中有效长篇小说概括的配方 | 大型语言模型(LLMS)在处理长篇小说任务时面临重大挑战,因为在预处理过程中其有效的有效上下文窗口大小,这限制了它们概括超过扩展序列的能力。同时,通过后期扩展LLM中的上下文窗口是高度资源密集的。为了解决这个问题,我们介绍了LongRecipe,这是一种有效的培训策略,用于扩展LLM的上下文窗口,包括有影响力的令牌分析,位置索引转换和培训优化策略。它模拟了长期的输入,同时保持训练效率,并显着提高模型对远程依赖性的理解。对三种LLMS的实验表明,LongRecipe可以使用长序列,同时仅需要目标上下文窗口大小的30%,并且与完整的序列培训相比,计算训练资源将超过85%的计算培训资源降低。此外,LongRecipe还保留了原始LLM在一般任务中的功能。最终,我们可以将开源LLMS的有效上下文窗口从8K扩展到128K,从而在仅使用具有80G内存的单个GPU的一天的专用培训来实现接近GPT-4的性能。我们的代码在https://github.com/zhiyuanhubj/longrecipe上发布。 |
2024年8月29日 | Mini-Omni:语言模型可以在流媒体上思考时听到,说话 | 语言模型的最新进展取得了重大进展。作为一个新的里程碑,GPT-4O已实现了与人类的实时对话,表现出近乎人类的自然流利性。这种人类计算机相互作用需要模型具有直接使用音频模式执行推理并在流中产生输出的能力。但是,这仍然超出了当前学术模型的范围,因为它们通常取决于额外的TTS系统进行语音综合,从而导致不良的延迟。本文介绍了Mini-OMNI,这是一种基于音频的端到端对话模型,能够实时语音互动。为了实现这一能力,我们提出了一种文本实施语音生成方法,以及在推断过程中的批处理策略,以进一步提高性能。我们的方法还有助于通过最小的降解来保留原始模型的语言能力,从而使其他作品能够建立实时互动功能。我们称这种训练方法“任何模型都可以
展开
相关应用
为您推荐
相关资讯
全部
|