很棒的深思熟慮的提示
如何要求大型語言模型 (LLM) 產生可靠的推理並做出理性回應的決策。
深思熟慮
仔細思考某件事的行為,尤其是。為了做出決定;仔細考慮;此類行為或實例。 (牛津英語辭典)
內容
- 成功案例
- 提示模式和策略
- 超越“讓我們一步一步思考”
- 多智能體審議
- 反思與後設認知
- 文字生成技術
- 自我修正
- 推理分析
- 限制、失敗、困惑
- 數據集
- 工具和框架
- 其他資源
成功案例
有力的證據證明審慎提示的有效性。
- ?最初的「思想鏈」(CoT)論文首先給出了深思熟慮促進有效的明確證據。 “思維鏈提示引發大型語言模型中的推理。” 2022年1月28日。 [>紙張]
- ?深思熟慮的提示提高了谷歌法學碩士解決看不見的難題的能力,而指令微調(Flan-)模型在這方面做得更好。
- “擴展教學-微調語言模式。” 2022年12月6日。 [>紙張]
- 「PaLM 2 技術報告」。 2023年5月17日。 [>紙張]
- ?深思熟慮的提示對於 OpenAI 的模型(Text-Davinci-003、ChatGPT、GPT-4)非常有效,提高了 EvalAGI 基準中許多(但不是全部)推理任務的準確性。 “AGIEval:以人為本的評估基礎模型的基準。” 2023年4月13日。 [>紙張]
- ?深思熟慮的提示可以釋放潛在的認知技能,並且對於更大的模型更有效。 “具有挑戰性的 BIG-Bench 任務以及思維鏈能否解決它們。” 2022年10月17日。 [>紙張]
- ?透過實驗在 CoT 推理軌跡中引入錯誤會降低決策準確性,這為法學碩士的推理反應性提供了間接證據。 「大型語言模型的壓力測試思路提示」。 2023年9月28日。 [>紙張]
- ?推理(關於檢索候選項)改進了 RAG。 “Self-RAG:透過自我反思學習檢索、生成和批判。” 2023年10月17日。 [>紙張]
- ?深思熟慮的閱讀筆記可以提高 RAG。 “註釋鏈:增強檢索增強語言模型的穩健性。” 2023年11月15日。 [>紙張]
- ?良好的推理(CoT)會產生良好的答案(即法學碩士是理性響應的)。 “算術應用題中思想鏈推理的因果抽象。” 2023年12月7日。 [>紙張]
- ?對推理任務的內部分層處理的邏輯解釋為推理響應性提供了進一步的證據。 “語言模型多步驟推理能力的機械解釋。” 2023年12月7日。 [>紙張]
- ?對替代草稿的推理可以改善文本生成。 “自我評估提高了大型語言模型的選擇性生成。” 2023年12月14日。 [>紙張]
- ? CoT 精心檢索、多樣化的推理演示可促進多模式法學碩士的發展。 “大型語言模型的檢索增強多模態思想鏈推理。” 2023年12月4日。 [>紙張]
- ?用於視覺問答的有效多跳 CoT。 “II-MMR:識別和改進視覺問答中的多模式多跳推理。” 2024年2月16日。 [>紙張]
- ? ? 合成 CoT 痕跡上的 DPO 提高了小型法學碩士的理性回應能力。 「讓推理變得重要:衡量和提高思想鏈推理的可信度」2024-02-23。 [>紙張] [>代碼]
提示模式和策略
促使法學碩士深思熟慮的策略和模式。
超越“讓我們一步一步思考”
指導法學碩士進行推理(以特定方式)。
- ?要求 GPT-4 提供正確和錯誤的答案可以提高準確性。 “大型語言模型是對比推理機。” 2024年3月13日。 [>紙張]
- ?引導式動態提示可將 GPT-4 CoT 效能提高多達 30 個百分點。 「結構引導提示:透過探索文本的圖形結構指導大型語言模型進行多步驟推理」2024-02-20。 [>紙張]
- ?讓法學碩士選擇並組合推理策略既具有成本效益,又可以提高績效。 “自我發現:大型語言模型自行組成推理結構。” 2024年2月6日。 [>紙張]
- ? CoA:先產生抽象推理軌跡,然後(使用工具)填寫詳細資訊。 “透過抽象鏈推理有效使用工具。” 2024年1月30日。 [>紙張]
- ?反覆推理,直至驗證測試通過。 “計劃、驗證和轉換:具有多樣化思維的綜合推理。” 2023年10月23日。 [>紙張]
- ?產生多種不同的審議,然後將它們綜合在一個推理路徑中。 「再問一次:自我認同改善了(幾乎)所有場景中語言模型的推理。” 2023年11月14日。 [>紙張]
- ?關於任務類型、提示設計和推理品質指標的 CoT 調查。 “邁向更好的思想鏈提示策略:一項調查。” 2023年10月8日。 [>紙張]
- ?向法學碩士詢問問題的更廣泛背景會得到更好的答案。 “退一步:透過大型語言模型中的抽象引發推理。” 2023年10月9日。 [>紙張]
- 權衡利弊:這種通用的審議範式可以透過法學碩士來實施。
- ? 一個{{guidance}}程序,它可以:1.確定選項→2.產生優點和缺點→3.權衡原因→4.做出決定。 [>程式碼]
- ? ? 規劃和解決提示。 “計劃和解決提示:通過大型語言模型改進零射擊思想鏈推理。” 2023年5月6日。 [>紙張] [>代碼]
- ?記筆記。 “透過自記學習推理和記憶。” 2023年5月1日。 [>紙張]
- ? 「故意然後產生」可提高文字品質。 “深思熟慮然後生成:增強的文本生成提示框架。” 2023年5月31日。 [>紙張]
- ?讓LLM自發性地交織推理和Q/A。 “ReAct:在語言模型中協同推理和行動。” 2022年10月6日。 [>紙張]
- ? 「分而治之」指令的效能大大優於標準 CoT。 「從最少到最多的提示實現大型語言模型中的複雜推理」2022-05-21。 [>紙張]
多智能體審議
讓一個(或多個)法學碩士模擬一場自由爭議。
- ? ? 精心挑選的開放法學碩士,反覆審查和改進其答案,其結果優於 GPT4-o。 “代理混合增強了大型語言模型的能力。” 2024年6月10日。 [>紙張] [>代碼]
- ?根據這篇評論,更複雜和更昂貴的多智能體系統設計通常更有效:“我們要瘋狂嗎?對醫學問答語言模型之間的多智能體辯論進行基準測試。” 2023年11月19日。 [>紙張]
- ?系統性的同儕審查甚至比多主體辯論更好。 “透過多代理同行評審協作實現大型語言模型的推理。” 2023年11月14日。 [>紙張]
- ?集體批判和反思可以減少事實幻覺和毒性。 “N-Critics:使用批評家集合對大型語言模型進行自我完善。” 2023年10月28日。 [>紙張]
- ? ? 不同法學碩士的德爾菲流程實際上比簡單的辯論更有價值。 “ReConcile:圓桌會議通過不同法學碩士之間的共識改進推理。” 2023年9月22日。 [>紙張] [>代碼]
- ?多智能體辯論增加了認知多樣性,提高了績效。 “透過多智能體辯論鼓勵大型語言模型中的發散性思考。” 2023年5月30日。 [>紙張]
- ?透過辯論模擬利用人群效應的智慧。 “透過多智能體辯論提高語言模型的事實性和推理能力。” 2023年5月23日。 [>紙張]
- ? ? 模擬蘇格拉底式對話,與多個人工智慧代理協作解決問題。 “大型語言模型中自我發現的蘇格拉底方法。” 2023年5月5日。 [>部落格] [>程式碼]
反思與後設認知
可以改善一階審議的高階推理策略。
- ? ? 追蹤從 CoT 問題解決中獲得的一般見解可以提高未來的準確性和效率。 “思想緩衝區:大型語言模型的思想增強推理。” 2024年6月6日。 [>紙張] [>代碼]
- ? ? 根據自我評估難度處理任務提高了 CoT 有效性。 “大型語言模型推理的分而治之。” 2024年1月10日。 [>紙張] [>代碼]
- ? ? 反思任務可以讓LLM自動產生更有效的指令、演示和推理軌跡。 “Meta-CoT:具有大型語言模型的混合任務場景中的可推廣思維鏈提示。” 2023年10月11日。 [>紙張] [>代碼]
- ? ? 基於 LLM 的 AI Instructor 設計了有效的一階 CoT 指令(開源模型提高了高達 20%)。 “智能體指示大型語言模型成為通用的零樣本推理器。” 2023年10月5日。 [>紙張] [>代碼]
- ? ? 澄清→判斷→評估→確認→限定範式。 “元認知提示提高了對大型語言模型的理解。” 2023年8月10日。 [>紙張] [>代碼]
- ? ? “大型語言模型的快速程式設計:超越少樣本範式。” 2021年2月15日。 [>論文] [>lmql]
文字生成技術
文字生成技術,可以與提示模式和策略結合。
- ?根據先前的 CoT 軌跡對推理進行迭代修訂,將準確度提高了 10-20%。 「RAT:檢索增強思想在長視野生成中引發上下文感知推理」。 2024年3月8日。 [>紙張]
- ?用於自行產生和選擇有效的 CoT 幾次演示的管道。 「通用自適應提示」。 2023年5月24日。 [>紙張]
- ?更多推理(=更長的推理軌跡)更好。 「推理步長對大型語言模型的影響」。 2024年1月10日。 [>紙張]
- ?進行(相應標記的)正確和錯誤(少量)推理演示可以提高 CoT。 “對比思維鏈提示。” 2023年11月17日。 [>紙張]
- ?透過幾次試誤(上下文強化學習)更好地解決問題和深思熟慮。 “反射:具有言語強化學習的語言代理。” 2023年3月20日。 [>紙張]
- ?限制推理產生的外部指南可將選定任務的準確性提高高達 35%。 “使用語言模型進行認證推理。” 2023年6月6日。 [>紙張]
- ? ? 高效的波束搜索,用於產生複雜的多步驟推理事件。 “思想之樹:用大型語言模型有意識地解決問題。” 2023年5月17日。 [>紙張] [>代碼]
- ? ? LLM自動產生多種推理演示,用於深思熟慮的提示。 “大型語言模型中的自動化思考提示鏈。” 2022年10月7日。 [>紙張] [>代碼]
自我修正
讓法學碩士自我糾正他們的想法。
- ?多個 CoT 軌跡之間的一致性是推理可靠性的指標,可用於自我檢查/聚合。 “我們可以逐步驗證錯誤答案檢測嗎?” 2024年2月16日。 [>紙張]
- ?透過將自我校正步驟附加到標準 CoT 軌跡中進行微調,將 LLM 轉變為內在的自我檢查器。 “小語言模型可以自我糾正。” 2024年1月14日。 [>紙張]
- ?強化自我訓練改進了檢索增強多跳問答。 “ReST 與 ReAct 的結合:多步驟推理 LLM 代理的自我改進。” 2023年12月15日。 [>紙張]
- ?有條件的自我修正取決於推理追蹤中是否解決了關鍵問題。 “法學碩士精煉的藝術:詢問、精煉和信任。” 2023年11月14日。 [>紙張]
- ?根據不同的回饋迭代地完善推理可將準確度提高 10% (ChatGPT)。 “MAF:用於改進大型語言模型推理的多方面反饋。” 2023年10月19日。 [>紙張]
- ?僅指示模型「審查」其答案並「發現問題」並不會導致有效的自我糾正。 “大型語言模型還不能自我糾正推理。” 2023年9月25日。 [>紙張]
- ?法學碩士可以提出並解決關鍵問題來改進他們的草稿。 “驗證鏈減少了大型語言模型中的幻覺。” 2023年9月25日。 [>紙張]
- ? LogiCoT:每個 CoT 步驟後的自我檢測和修訂可提高效能(對於選定的任務和模型)。 “透過邏輯增強大型語言模型中的零鏡頭思維鏈推理。” 2023年9月23日。 [>紙張]
- ?關於自我糾正法學碩士的精彩評論,以及對不忠實推理的應用。 “自動糾正大型語言模型:調查各種自我糾正策略的前景。” 2023年8月6日。 [>紙張]
推理分析
分析法學碩士審議和評估推理品質的方法。
- ?? 基於法學碩士的綜合推理分析,將文本分解為單獨的原因。 “DCR 一致性:用於一致性評估和改進大型語言模型的分治推理。” 2024年1月4日。 [>紙張] [>代碼]
- ??用於推理驗證的高效能、開放式法學碩士(基於 T5)。 “思想與機器:重新思考語言模型的蘊涵驗證。” 2024年2月6日。 [>紙張] [>模型]
- ?? CoT 評估者的測驗資料集。 “思想鏈的強度取決於其最薄弱的環節:推理鏈驗證者的基準。” 2023年11月23日。 [>論文] [>資料集]
- ?? 透過將推理鏈視為得出最終答案的非正式證明來評估推理鏈的框架。 “ReCEval:透過正確性和資訊性評估推理鏈。” 2023年11月23日。 [>紙張] [>代碼]
- ? GPT-4 在預測數學推理是否正確方面比 GPT-3.5 好 5 倍。 “挑戰法學碩士的推理能力:揭示法學碩士認知深度的基準。” 2023年12月28日。 [>紙張]
- ?簡約 GPT-4 提示評估推理品質。 “SocREval:採用蘇格拉底式方法進行無參考推理評估的大型語言模型。” 2023年9月29日。 [>紙張] [>代碼]
- ?? 自動、基於語意相似性的指標,用於評估 CoT 痕跡(冗餘、忠實度、一致性等)。 “ROSCOE:一套用於逐步推理評分的指標。” 2023年9月12日。 [>紙張]
限制、失敗、困惑
那些不起作用的事情,或者人們理解甚少的事情。
- ?結構化生成風險會降低推理品質和 CoT 有效性。 “讓我暢所欲言?格式限制對大型語言模型性能影響的研究。” 2024年8月5日。 [>紙張]
- ?填充標記可以與合理的推理軌跡一樣有效地得出正確答案。 “讓我們逐點思考:Transformer 語言模型中的隱藏計算。” 2024年4月24日。 [>紙張]
- ?因果分析表明,法學碩士有時會忽略 CoT 痕跡,但原因反應能力會隨著模型大小的增加而增加,並透過微調來塑造。 「具有思想鏈的法學碩士是非因果推理者」2024-02-25。 [>紙張]
- ?錯誤的推理可能會導致正確的結論,因此需要更好的 CoT 評估方法。 “SCORE:自相矛盾的推理評估框架。” 2023年11月16日。 [>紙張]
- ?法學碩士可能會產生人類無法理解的“編碼推理”,這可能會抵消從深思熟慮的提示中獲得的任何 XAI 收益。 “防止語言模型隱藏其推理。” 2023年10月27日。 [>紙張]
- ?法學碩士根據可用論點(理性回應)進行判斷和決定,但與合理的理由相比,更容易受到錯誤和欺騙性理由的影響。 “法學碩士對邏輯謬誤有多敏感?” 2023年8月18日。 [>紙張]
- ?不正確的推理對答案準確度的提高(幾乎)與正確的推理一樣多。 “無效邏輯,等價收益:語言模型提示中推理的怪異。” 2023年7月20日。 [>紙張]
- ?敏感領域中的零射擊 CoT 推理會增加法學碩士產生有害或不良輸出的可能性。 “再想一想,我們不要一步一步思考!零樣本推理中的偏見和毒性。” 2023年6月23日。 [>紙張]
- ?紐約大學/人類學團隊發現,法學碩士可能會系統性地為錯誤答案編造錯誤的 CoT 理由。 “語言模型並不總是說出他們的想法:思想鏈提示中的不忠實解釋。” 2023年5月7日。 [>紙張]
- ?法學碩士的實際審議並不穩健,而且很容易因重新措詞場景而誤入歧途。 「儘管目前的法學碩士具有『超人』的表現,但他們不適合做出有關道德和安全的決策」2022-12-13。 [>紙張]
數據集
包含審議提示範例的資料集,可能對訓練模型/評估其審議技能有用。
- 遵循指令的資料集增加了法學碩士生成的「推理痕跡」。
- ? ORCA - 微軟的原始論文。 “Orca:從 GPT-4 的複雜解釋痕跡中漸進學習。” 2023年6月5日。 [>紙張]
- ? OpenOrca - ORCA 資料集的開源複製。 [>資料集]
- ? Dolphin - ORCA 資料集的開源複製。 [>資料集]
- ? ORCA 2 - Microsoft 改進的 Orca,例如使用元推理。 “Orca 2:教授小語言模式如何推理。” 2023年11月18日。 [>紙張]
- ?? CoT Collection - 1,060 個任務的 184 萬條推理軌跡。 “CoT Collection:透過思想鏈微調改進語言模型的零樣本和少樣本學習。” [>紙張] [>代碼]
- ? OASST1 - 包含超過 200 條指令來產生優點和缺點(根據 nomic.ai 的地圖)。 [>資料集]
- ? LegalBench - 法學碩士法律推理的基準 [>論文]
- ?? ThoughtSource - 與大型語言模型中的思想鏈推理相關的資料和工具的開放資源。 [>紙張] [>代碼]
- ?? 回顧大量 CoT 相關資料集的提示。 「大型語言模型資料集:綜合調查」[>論文][>程式碼]
- ? Maxime Labonne 的 LLM 資料集清單 [github]
工具和框架
實施慎重提示的工具和框架。
- ? LMQL - 一種用於語言模型互動的程式語言。 [>網站]
- ? 互動式 LMQL 遊樂場 [>site]
- ? “提示就是程式設計:大型語言模型的查詢語言。” 2022年12月12日。 [>紙張]
- ? {{guidance}} - 用來控制大型語言模型的語言。 [>程式碼]
- ? 概述 ~ - 一種用來引導文字產生的語言。 [>程式碼]
- ? DSPy - 法學碩士的程式設計介面。 [>程式碼]
- ? llm-reasoners – 用於高階大語言模型推理的函式庫。 [>程式碼]
- ? ThinkGPT - 思想鏈工作流程的架構與建構塊。 [>程式碼]
- ? LangChain - 用於建立 LLM 鍊和代理的 python 函式庫。 [>程式碼]
- ? PromptBench - 用於評估 LLMS 的統一函式庫,尤其是 CoT 提示的有效性。 [>程式碼]
- ? SymbolicAI - 一個用於法學碩士組合微分編程的函式庫。 [>程式碼]
其他資源
更多精彩和有用的材料。
- 自主法學碩士代理人調查(持續更新)。 [>網站]
- ? LLM Dashboard - 探索開放式 LLM 的任務特定推理表現 [>app]
- DAIR 制定的快速工程指南。 [>網站]
- ATLAS - 系統提示的原則與基準[>程式碼]
- Logikon 設定的慎思提示指南。 [>網站]
- 用論證進行論證——H. Siegel 最近發表的一篇精彩文章,討論了評估論證的實際含義。 [>紙張]