三个皮匠的智慧加起来,相当于诸葛亮的主谋。 ——中国有句古话。
我们引入了新的零样本提示魔词,可以提高语言模型的推理能力:小组讨论!
在会议和研讨会上,总是有专家之间的讨论,人们就某一特定主题交换意见,增进对新概念的理解,改变思维视角,对当前的辩论或讨论达成更全面的理解。
图 1:马云和埃隆·马斯克之间的小组讨论,WAIC,2019 年:
这个想法与自我一致性的工作有关(Wang,Xuezhi,et al.)(因为多位专家在小组讨论期间可能会出现不同意见。)
我们使用 gpt-3.5-turbo api 评估了所提出的提示方法在 GSM8K 数据集上的有效性。
在 1k GSM8k 测试数据集上评估每个提示的成本不到 2 美元。
我们的小组讨论提示实现了最佳性能,消融研究显示了每个元素益处的重要性。第二佳、和第三佳分别用下划线和斜体格式表示。
方法数据集 | GSM8K(测试1k) | 提示内容 | 参考 |
---|---|---|---|
无提示 | 0.789 | 答案是: | - |
零射击 CoT | 0.854 | 让我们一步步思考: | (小岛武等人,2022) |
APE 改进的 CoT | 0.845 | 让我们一步一步地解决这个问题,以确保我们得到正确的答案: | (周永超等,2023) |
ToT 提示 | 0.842 | 想象一下三位不同的专家正在回答这个问题。所有专家都会写下他们的想法的 1 个步骤,然后与小组分享。然后所有专家将继续下一步,依此类推。如果任何专家意识到他们在任何时候错了,那么他们就会离开 | (戴夫·赫伯特的回购协议 2023) |
面板GPT | 0.899 | 3位专家正在小组讨论中讨论问题,试图一步步解决,并确保结果正确并避免处罚: | (本回购协议,2023 年 7 月 18 日) |
PanelGPT 不带 AE 和 EA | 0.878 | 3位专家正在一起讨论这个问题,试图一步步解决,并确保结果是正确的: | (我们的消融研究) |
不带 AE 的 PanelGPT | 0.84 | 3位专家正在讨论问题,试图一步步解决,并确保结果正确并避免处罚: | (我们的消融研究) |
不带 EA 的 PanelGPT | 0.894 | 3位专家正在小组讨论中讨论这个问题,试图一步步解决,并确保结果是正确的: | (我们的消融研究) |
磷e n一个lGPT(拼写错误) | 0.883 | 3位专家正在对这个问题进行刑事讨论,试图一步步解决,并确保结果是正确的: | (我们的消融研究) |
零样本提示的能力出现在 GPT-3 和 GPT-4 等大量数据训练的语言模型中(Ouyang et al., 2022;OpenAI, 2023)。 Wei 等人表明了这一点。 (2021) 指令微调提高了语言模型的零样本学习能力。
尽管大型语言模型表现出令人印象深刻的零样本性能,但这些模型在零样本设置下执行更复杂的任务时通常表现出次优的性能。利用几次提示提供了一种促进情境学习的可行方法(Brown 等人,2020;Min 等人,2022)。该技术需要在提示中包含演示,从而有效地引导模型提高性能。这些演示充当后续示例的调节机制,引导模型产生更好的响应。
在一些更具挑战性的任务中,如复杂算术、常识和符号推理任务,思想链(CoT)提示被证明可以更有效地帮助语言模型获得正确答案(Wei et al., 2022)。 CoT 在少数提示示例中包含额外的推理步骤。小岛等人。 (2022)进一步引入了零样本CoT,表明添加任务无关指令可以提高模型在特定任务中的性能。在张等人。 (2022b),Auto-CoT结合了零样本CoT的普适性和由演示驱动的原始CoT的能力,并提出基于聚类和基于多样性的采样自动构建有利于CoT推理的演示。
王等人。 (2022) 通过对多个不同的推理路径进行采样并将这些路径边缘化,在所有采样的推理路径中选择最一致的答案来改进少样本 CoT 方法。生成的知识提示 Liu 等人。 (2021)通过结合与问题相关的知识或信息来改进常识推理,以做出更准确的预测。思想树(ToT)方法(Long,2023;Yao et al.,2023)将基于树的规划方法与语言模型的推理技巧相结合,通过多轮对话逐步解决硬推理问题。 Hulbert (2023) 还提出了一个相关的想法,即在单个提示中利用语言模型的多种思想。记忆和检索增强生成(RAG)(Lewis et al., 2020),能够将参数记忆和非参数记忆(如维基百科)结合起来完成知识密集型任务。 MoT (Li & Qiu, 2023):基于外部未标记数据集进行预思考,然后在推理时回忆相关知识。
Prompt-OIRL引入了利用离线逆强化学习来进行离线提示评估和优化的思想。该方法高效、有效。在 M2 芯片 MacBook Air 上训练 Prompt-OIRL 只需要 1 小时,但不同的 LLM 在算术推理任务上的性能可提高高达 24%。
如果您使用我们的代码和提示,请考虑引用我们的论文:
@inproceedings{sun2023query,title={使用离线逆强化学习的查询相关提示评估和优化},作者={Sun,Hao 和 H{"u}y{"u}k,Alihan 和 van der Schaar,Mihaela},书名={第十二届学习表征国际会议},年份={2023}}@article{sun2023reinforcement, title={法学硕士时代的强化学习:什么是本质?需要什么? RLHF、Prompting 和 Beyond 的 RL 视角},作者={Sun,Hao},期刊={arXiv 预印本 arXiv:2310.06147},年份={2023}}