很棒的深思熟虑的提示
如何要求大型语言模型 (LLM) 产生可靠的推理并做出理性响应的决策。
深思熟虑
仔细思考某事的行为,尤其是。为了做出决定;仔细考虑;此类行为或实例。 (牛津英语词典)
内容
- 成功案例
- 提示模式和策略
- 超越“让我们一步一步思考”
- 多智能体审议
- 反思与元认知
- 文本生成技术
- 自我修正
- 推理分析
- 局限性、失败、困惑
- 数据集
- 工具和框架
- 其他资源
成功案例
有力的证据证明审慎提示的有效性。
- ?最初的“思想链”(CoT)论文首先给出了深思熟虑促进有效的明确证据。 “思维链提示引发大型语言模型中的推理。” 2022年1月28日。 [>纸张]
- ?深思熟虑的提示提高了谷歌法学硕士解决看不见的难题的能力,而指令微调(Flan-)模型在这方面做得更好。
- “扩展教学-微调语言模型。” 2022年12月6日。 [>纸张]
- “PaLM 2 技术报告”。 2023年5月17日。 [>纸张]
- ?深思熟虑的提示对于 OpenAI 的模型(Text-Davinci-003、ChatGPT、GPT-4)非常有效,提高了 EvalAGI 基准中许多(但不是全部)推理任务的准确性。 “AGIEval:以人为本的评估基础模型的基准。” 2023年4月13日。 [>纸张]
- ?深思熟虑的提示可以释放潜在的认知技能,并且对于更大的模型更有效。 “具有挑战性的 BIG-Bench 任务以及思维链能否解决它们。” 2022年10月17日。 [>纸张]
- ?通过实验在 CoT 推理轨迹中引入错误会降低决策准确性,这为法学硕士的推理响应性提供了间接证据。 “大型语言模型的压力测试思路提示”。 2023年9月28日。 [>纸张]
- ?推理(关于检索候选项)改进了 RAG。 “Self-RAG:通过自我反思学习检索、生成和批判。” 2023年10月17日。 [>纸张]
- ?深思熟虑的阅读笔记可以提高 RAG。 “注释链:增强检索增强语言模型的鲁棒性。” 2023年11月15日。 [>纸张]
- ?良好的推理(CoT)会产生良好的答案(即法学硕士是理性响应的)。 “算术应用题中思想链推理的因果抽象。” 2023年12月7日。 [>纸张]
- ?对推理任务的内部分层处理的逻辑解释为推理响应性提供了进一步的证据。 “对语言模型多步推理能力的机械解释。” 2023年12月7日。 [>纸张]
- ?对替代草稿的推理可以改善文本生成。 “自我评估提高了大型语言模型的选择性生成。” 2023年12月14日。 [>纸张]
- ? CoT 精心检索、多样化的推理演示可促进多模式法学硕士的发展。 “大型语言模型的检索增强多模态思想链推理。” 2023年12月4日。 [>纸张]
- ?用于视觉问答的有效多跳 CoT。 “II-MMR:识别和改进视觉问答中的多模式多跳推理。” 2024年2月16日。 [>纸张]
- ? ? 合成 CoT 痕迹上的 DPO 提高了小型法学硕士的理性响应能力。 “让推理变得重要:衡量和提高思想链推理的可信度”2024-02-23。 [>纸张] [>代码]
提示模式和策略
促使法学硕士深思熟虑的策略和模式。
超越“让我们一步一步思考”
指导法学硕士进行推理(以特定方式)。
- ?要求 GPT-4 提供正确和错误的答案可以提高准确性。 “大型语言模型是对比推理机。” 2024年3月13日。 [>纸张]
- ?引导式动态提示可将 GPT-4 CoT 性能提高多达 30 个百分点。 “结构引导提示:通过探索文本的图形结构指导大型语言模型进行多步推理”2024-02-20。 [>纸张]
- ?让法学硕士选择并组合推理策略既具有成本效益,又可以提高绩效。 “自我发现:大型语言模型自行组成推理结构。” 2024年2月6日。 [>纸张]
- ? CoA:首先生成抽象推理轨迹,然后(使用工具)填写详细信息。 “通过抽象链推理有效使用工具。” 2024年1月30日。 [>纸张]
- ?反复推理,直至验证测试通过。 “计划、验证和转换:具有多样化思维的综合推理。” 2023年10月23日。 [>纸张]
- ?产生多种不同的审议,然后将它们综合在一个推理路径中。 “再问一次:自我认同改善了(几乎)所有场景中语言模型的推理。” 2023年11月14日。 [>纸张]
- ?关于任务类型、提示设计和推理质量指标的 CoT 调查。 “迈向更好的思想链提示策略:一项调查。” 2023年10月8日。 [>纸张]
- ?向法学硕士询问问题的更广泛背景会得到更好的答案。 “退一步:通过大型语言模型中的抽象引发推理。” 2023年10月9日。 [>纸张]
- 权衡利弊:这种通用的审议范式可以通过法学硕士来实施。
- ? 一个{{guidance}}程序,它可以:1.确定选项→2.生成优点和缺点→3.权衡原因→4.做出决定。 [>代码]
- ? ? 计划和解决提示。 “计划和解决提示:通过大型语言模型改进零射击思想链推理。” 2023年5月6日。 [>纸张] [>代码]
- ?记笔记。 “通过自记学习推理和记忆。” 2023年5月1日。 [>纸张]
- ? “故意然后生成”可提高文本质量。 “深思熟虑然后生成:增强的文本生成提示框架。” 2023年5月31日。 [>纸张]
- ?让LLM自发地交织推理和Q/A。 “ReAct:在语言模型中协同推理和行动。” 2022年10月6日。 [>纸张]
- ? “分而治之”指令的性能大大优于标准 CoT。 “从最少到最多的提示实现大型语言模型中的复杂推理”2022-05-21。 [>纸张]
多智能体审议
让一个(或多个)法学硕士模拟一场自由争议。
- ? ? 精心挑选的开放法学硕士,反复审查和改进其答案,其结果优于 GPT4-o。 “代理混合增强了大型语言模型的能力。” 2024年6月10日。 [>纸张] [>代码]
- ?根据这篇评论,更复杂和更昂贵的多智能体系统设计通常更有效:“我们要疯狂吗?对医学问答语言模型之间的多智能体辩论进行基准测试。” 2023年11月19日。 [>纸张]
- ?系统的同行评审甚至比多主体辩论更好。 “通过多代理同行评审协作实现大型语言模型的推理。” 2023年11月14日。 [>纸张]
- ?集体批判和反思可以减少事实幻觉和毒性。 “N-Critics:使用批评家集合对大型语言模型进行自我完善。” 2023年10月28日。 [>纸张]
- ? ? 不同法学硕士的德尔菲流程实际上比简单的辩论更有价值。 “ReConcile:圆桌会议通过不同法学硕士之间的共识改进推理。” 2023年9月22日。 [>纸张] [>代码]
- ?多智能体辩论增加了认知多样性,提高了绩效。 “通过多智能体辩论鼓励大型语言模型中的发散思维。” 2023年5月30日。 [>纸张]
- ?通过辩论模拟利用人群效应的智慧。 “通过多智能体辩论提高语言模型的事实性和推理能力。” 2023年5月23日。 [>纸张]
- ? ? 模拟苏格拉底式对话,与多个人工智能代理协作解决问题。 “大型语言模型中自我发现的苏格拉底方法。” 2023年5月5日。 [>博客] [>代码]
反思和元认知
可以改善一阶审议的高阶推理策略。
- ? ? 跟踪从 CoT 问题解决中获得的一般见解可以提高未来的准确性和效率。 “思想缓冲区:大型语言模型的思想增强推理。” 2024年6月6日。 [>纸张] [>代码]
- ? ? 根据自我评估难度处理任务提高了 CoT 有效性。 “大型语言模型推理的分而治之。” 2024年1月10日。 [>纸张] [>代码]
- ? ? 反思任务可以让LLM自动生成更有效的指令、演示和推理轨迹。 “Meta-CoT:具有大型语言模型的混合任务场景中的可推广思维链提示。” 2023年10月11日。 [>纸张] [>代码]
- ? ? 基于 LLM 的 AI Instructor 设计了有效的一阶 CoT 指令(开源模型提高了高达 20%)。 “智能体指示大型语言模型成为通用的零样本推理器。” 2023年10月5日。 [>纸张] [>代码]
- ? ? 澄清→判断→评估→确认→限定范式。 “元认知提示提高了对大型语言模型的理解。” 2023年8月10日。 [>纸张] [>代码]
- ? ? 找到然后模拟该问题的专家的策略。 “大型语言模型的快速编程:超越少样本范式。” 2021年2月15日。 [>论文] [>lmql]
文本生成技术
文本生成技术,可以与提示模式和策略相结合。
- ?根据之前的 CoT 轨迹对推理进行迭代修订,将准确性提高了 10-20%。 “RAT:检索增强思维在长视野生成中引发上下文感知推理”。 2024年3月8日。 [>纸张]
- ?用于自行生成和选择有效的 CoT 几次演示的管道。 “通用自适应提示”。 2023年5月24日。 [>纸张]
- ?更多推理(=更长的推理轨迹)更好。 “推理步长对大型语言模型的影响”。 2024年1月10日。 [>纸张]
- ?进行(相应标记的)正确和错误(少量)推理演示可以提高 CoT。 “对比思维链提示。” 2023年11月17日。 [>纸张]
- ?通过几次试错(上下文强化学习)更好地解决问题和深思熟虑。 “反射:具有言语强化学习的语言代理。” 2023年3月20日。 [>纸张]
- ?限制推理生成的外部指南可将选定任务的准确性提高高达 35%。 “使用语言模型进行认证推理。” 2023年6月6日。 [>纸张]
- ? ? 高效的波束搜索,用于生成复杂的多步骤推理事件。 “思想之树:用大型语言模型有意识地解决问题。” 2023年5月17日。 [>纸张] [>代码]
- ? 思想树的简约实现作为简单的提示。 [>代码]
- ? 思想树的实验性 LMQL 实现。 [>代码]
- ? ? LLM自动生成多种推理演示,用于深思熟虑的提示。 “大型语言模型中的自动思维提示链。” 2022年10月7日。 [>纸张] [>代码]
自我修正
让法学硕士自我纠正他们的想法。
- ?多个 CoT 轨迹之间的一致性是推理可靠性的指标,可用于自检/聚合。 “我们可以逐步验证错误答案检测吗?” 2024年2月16日。 [>纸张]
- ?通过将自我校正步骤附加到标准 CoT 轨迹中进行微调,将 LLM 转变为内在的自我检查器。 “小语言模型可以自我纠正。” 2024年1月14日。 [>纸张]
- ?强化自我训练改进了检索增强多跳问答。 “ReST 与 ReAct 的结合:多步推理 LLM 代理的自我改进。” 2023年12月15日。 [>纸张]
- ?有条件的自我纠正取决于推理跟踪中是否解决了关键问题。 “法学硕士精炼的艺术:询问、精炼和信任。” 2023年11月14日。 [>纸张]
- ?根据不同的反馈迭代地完善推理可将准确性提高 10% (ChatGPT)。 “MAF:用于改进大型语言模型推理的多方面反馈。” 2023年10月19日。 [>纸张]
- ?仅指示模型“审查”其答案并“发现问题”并不会导致有效的自我纠正。 “大型语言模型还不能自我纠正推理。” 2023年9月25日。 [>纸张]
- ?法学硕士可以提出并解决关键问题来改进他们的草稿。 “验证链减少了大型语言模型中的幻觉。” 2023年9月25日。 [>纸张]
- ? LogiCoT:每个 CoT 步骤后的自检和修订可提高性能(对于选定的任务和模型)。 “通过逻辑增强大型语言模型中的零镜头思维链推理。” 2023年9月23日。 [>纸张]
- ?关于自我纠正法学硕士的精彩评论,以及对不忠实推理的应用。 “自动纠正大型语言模型:调查各种自我纠正策略的前景。” 2023年8月6日。 [>纸张]
推理分析
分析法学硕士审议和评估推理质量的方法。
- ?? 基于法学硕士的综合推理分析,将文本分解为单独的原因。 “DCR 一致性:用于一致性评估和改进大型语言模型的分治推理。” 2024年1月4日。 [>纸张] [>代码]
- ??用于推理验证的高性能、开放式法学硕士(基于 T5)。 “思想与机器:重新思考语言模型的蕴涵验证。” 2024年2月6日。 [>纸张] [>模型]
- ?? CoT 评估者的测试数据集。 “思想链的强度取决于其最薄弱的环节:推理链验证者的基准。” 2023年11月23日。 [>论文] [>数据集]
- ?? 通过将推理链视为得出最终答案的非正式证明来评估推理链的框架。 “ReCEval:通过正确性和信息性评估推理链。” 2023年11月23日。 [>纸张] [>代码]
- ? GPT-4 在预测数学推理是否正确方面比 GPT-3.5 好 5 倍。 “挑战法学硕士的推理能力:揭示法学硕士认知深度的基准。” 2023年12月28日。 [>纸张]
- ?简约 GPT-4 提示评估推理质量。 “SocREval:采用苏格拉底式方法进行无参考推理评估的大型语言模型。” 2023年9月29日。 [>纸张] [>代码]
- ?? 自动、基于语义相似性的指标,用于评估 CoT 痕迹(冗余、忠实度、一致性等)。 “ROSCOE:一套用于逐步推理评分的指标。” 2023年9月12日。 [>纸张]
局限性、失败、困惑
那些不起作用的事情,或者人们理解甚少的事情。
- ?结构化生成风险会降低推理质量和 CoT 有效性。 “让我畅所欲言?格式限制对大型语言模型性能影响的研究。” 2024年8月5日。 [>纸张]
- ?填充标记可以与合理的推理轨迹一样有效地得出正确答案。 “让我们逐点思考:Transformer 语言模型中的隐藏计算。” 2024年4月24日。 [>纸张]
- ?因果分析表明,法学硕士有时会忽略 CoT 痕迹,但原因响应能力会随着模型大小的增加而增加,并通过微调来塑造。 “具有思想链的法学硕士是非因果推理者”2024-02-25。 [>纸张]
- ?错误的推理可能会导致正确的结论,因此需要更好的 CoT 评估方法。 “SCORE:自相矛盾的推理评估框架。” 2023年11月16日。 [>纸张]
- ?法学硕士可能会产生人类无法理解的“编码推理”,这可能会抵消从深思熟虑的提示中获得的任何 XAI 收益。 “防止语言模型隐藏其推理。” 2023年10月27日。 [>纸张]
- ?法学硕士根据可用论点(理性响应)进行判断和决定,但与合理的理由相比,更容易受到错误和欺骗性理由的影响。 “法学硕士对逻辑谬误有多敏感?” 2023年8月18日。 [>纸张]
- ?不正确的推理对答案准确性的提高(几乎)与正确的推理一样多。 “无效逻辑,等价收益:语言模型提示中推理的怪异。” 2023年7月20日。 [>纸张]
- ?敏感领域中的零射击 CoT 推理会增加法学硕士产生有害或不良输出的可能性。 “再想一想,我们不要一步一步思考!零样本推理中的偏见和毒性。” 2023年6月23日。 [>纸张]
- ?纽约大学/人类学团队发现,法学硕士可能会系统地为错误答案编造错误的 CoT 理由。 “语言模型并不总是说出他们的想法:思想链提示中的不忠实解释。” 2023年5月7日。 [>纸张]
- ?法学硕士的实际审议并不稳健,而且很容易因重新措辞场景而误入歧途。 “尽管目前的法学硕士具有‘超人’的表现,但他们不适合做出有关道德和安全的决策”2022-12-13。 [>纸张]
数据集
包含审议提示示例的数据集,可能对训练模型/评估其审议技能有用。
- 遵循指令的数据集增加了法学硕士生成的“推理痕迹”。
- ? ORCA - 微软的原始论文。 “Orca:从 GPT-4 的复杂解释痕迹中渐进学习。” 2023年6月5日。 [>纸张]
- ? OpenOrca - ORCA 数据集的开源复制。 [>数据集]
- ? Dolphin - ORCA 数据集的开源复制。 [>数据集]
- ? ORCA 2 - Microsoft 改进的 Orca,例如使用元推理。 “Orca 2:教授小语言模型如何推理。” 2023年11月18日。 [>纸张]
- ?? CoT Collection - 1,060 个任务的 184 万条推理轨迹。 “CoT Collection:通过思想链微调改进语言模型的零样本和少样本学习。” [>纸张] [>代码]
- ? OASST1 - 包含超过 200 条指令来生成优点和缺点(根据 nomic.ai 的地图)。 [>数据集]
- ? LegalBench - 法学硕士法律推理的基准 [>论文]
- ?? ThoughtSource - 与大型语言模型中的思想链推理相关的数据和工具的开放资源。 [>纸张] [>代码]
- ?? 回顾大量 CoT 相关数据集的提示。 “大型语言模型数据集:综合调查”[>论文][>代码]
- ? Maxime Labonne 的 LLM 数据集列表 [github]
工具和框架
实施慎重提示的工具和框架。
- ? LMQL - 一种用于语言模型交互的编程语言。 [>网站]
- ? 交互式 LMQL 游乐场 [>site]
- ? “提示就是编程:大型语言模型的查询语言。” 2022年12月12日。 [>纸张]
- ? {{guidance}} - 用于控制大型语言模型的语言。 [>代码]
- ? 概述 ~ - 一种用于引导文本生成的语言。 [>代码]
- ? DSPy - 法学硕士的编程接口。 [>代码]
- ? llm-reasoners – 用于高级大语言模型推理的库。 [>代码]
- ? ThinkGPT - 思想链工作流程的框架和构建块。 [>代码]
- ? LangChain - 用于构建 LLM 链和代理的 python 库。 [>代码]
- ? PromptBench - 用于评估 LLMS 的统一库,尤其是 CoT 提示的有效性。 [>代码]
- ? SymbolicAI - 一个用于法学硕士组合微分编程的库。 [>代码]
其他资源
更多精彩和有用的材料。
- 自主法学硕士代理人调查(持续更新)。 [>网站]
- ? LLM Dashboard - 探索开放式 LLM 的任务特定推理性能 [>app]
- DAIR 制定的快速工程指南。 [>网站]
- ATLAS - 系统提示的原则和基准[>代码]
- Logikon 设置的慎思提示指南。 [>网站]
- 用论证进行论证——H. Siegel 最近发表的一篇精彩文章,讨论了评估论证的实际含义。 [>纸张]