三個皮匠的智慧加起來,相當於諸葛亮的主謀。 ——中國有句古話。
我們引入了新的零樣本提示魔詞,可以提高語言模型的推理能力:小組討論!
在會議和研討會上,總是有專家之間的討論,人們就某一特定主題交換意見,增進對新概念的理解,改變思維視角,對當前的辯論或討論達成更全面的理解。
圖 1:馬雲和伊隆馬斯克之間的小組討論,WAIC,2019 年:
這個想法與自我一致性的工作有關(Wang,Xuezhi,et al.)(因為多位專家在小組討論期間可能會出現不同意見。)
我們使用 gpt-3.5-turbo api 評估了所提出的提示方法在 GSM8K 資料集上的有效性。
在 1k GSM8k 測試資料集上評估每個提示的成本不到 2 美元。
我們的小組討論提示實現了最佳性能,消融研究顯示了每個元素益處的重要性。第二佳、和第三佳分別用底線和斜體格式表示。
方法資料集 | GSM8K(測試1k) | 提示內容 | 參考 |
---|---|---|---|
無提示 | 0.789 | 答案是: | - |
零射擊 CoT | 0.854 | 讓我們一步步思考: | (小島武等人,2022) |
APE 改進的 CoT | 0.845 | 讓我們一步一步解決這個問題,以確保我們得到正確的答案: | (周永超等,2023) |
ToT 提示 | 0.842 | 想像一下三位不同的專家正在回答這個問題。所有專家都會寫下他們的想法的 1 個步驟,然後與小組分享。然後所有專家將繼續下一步,依此類推。 | (戴夫·赫伯特的回購協議 2023) |
面板GPT | 0.899 | 3位專家正在小組討論中討論問題,試圖一步步解決,並確保結果正確並避免處罰: | (本回購協議,2023 年 7 月 18 日) |
PanelGPT 不含 AE 和 EA | 0.878 | 3位專家正在一起討論這個問題,試圖一步步解決,並確保結果是正確的: | (我們的消融研究) |
不含 AE 的 PanelGPT | 0.84 | 3位專家正在討論問題,試圖一步步解決,並確保結果正確並避免處罰: | (我們的消融研究) |
不含 EA 的 PanelGPT | 0.894 | 3位專家正在小組討論中討論這個問題,試圖一步步解決,並確保結果是正確的: | (我們的消融研究) |
磷e n一個lGPT(拼字錯誤) | 0.883 | 3位專家正在對這個問題進行刑事討論,試圖一步步解決,並確保結果是正確的: | (我們的消融研究) |
零樣本提示的能力出現在 GPT-3 和 GPT-4 等大量資料訓練的語言模型中(Ouyang et al., 2022;OpenAI, 2023)。 Wei 等人表明了這一點。 (2021) 指令微調提升了語言模型的零樣本學習能力。
儘管大型語言模型表現出令人印象深刻的零樣本性能,但這些模型在零樣本設定下執行更複雜的任務時通常表現出次優的性能。利用幾個提示提供了一種促進情境學習的可行方法(Brown 等人,2020;Min 等人,2022)。該技術需要在提示中包含演示,從而有效地引導模型以提高效能。這些演示充當後續範例的調節機制,引導模型產生更好的反應。
在一些更具挑戰性的任務中,如複雜算術、常識和符號推理任務,思想鏈(CoT)提示被證明可以更有效地幫助語言模型獲得正確答案(Wei et al., 2022)。 CoT 在少數提示範例中包含額外的推理步驟。小島等人。 (2022)進一步引入了零樣本CoT,顯示加入任務無關指令可以提高模型在特定任務中的表現。在張等人。 (2022b),Auto-CoT結合了零樣本CoT的普適性和由演示驅動的原始CoT的能力,並提出基於聚類和基於多樣性的採樣自動構建有利於CoT推理的演示。
王等人。 (2022) 透過對多個不同的推理路徑進行取樣並將這些路徑邊緣化,在所有取樣的推理路徑中選擇最一致的答案來改進少樣本 CoT 方法。產生的知識提示 Liu 等人。 (2021)透過結合與問題相關的知識或資訊來改進常識推理,以做出更準確的預測。思想樹(ToT)方法(Long,2023;Yao et al.,2023)將基於樹的規劃方法與語言模型的推理技巧結合,透過多輪對話逐步解決硬推理問題。 Hulbert (2023) 也提出了一個相關的想法,在單一提示中利用語言模型的多種想法。記憶和檢索增強生成(RAG)(Lewis et al., 2020),能夠將參數記憶和非參數記憶(如維基百科)結合起來完成知識密集型任務。 MoT (Li & Qiu, 2023):基於外部未標記資料集進行預思考,然後在推理時回憶相關知識。
Prompt-OIRL引入了利用離線逆強化學習來進行離線提示評估和最佳化的想法。該方法是高效、有效。在 M2 晶片 MacBook Air 上訓練 Prompt-OIRL 只需要 1 小時,但不同的 LLM 在算術推理任務上的表現可提高高達 24%。
如果您使用我們的程式碼和提示,請考慮引用我們的論文:
@inproceedings{sun2023query,title={使用離線逆強化學習的查詢相關提示評估和優化},作者={Sun,Hao 和H{"u}y{"u}k,Alihan 和van der Schaar,Mihaela},書名={第十二屆學習表徵國際會議},year={2023}}@article{sun2023reinforcement, title={法學碩士時代的強化學習:什麼是本質?需要什麼? RLHF、Prompting 和 Beyond 的 RL 視角},作者={Sun,Hao},期刊={arXiv 預印本 arXiv:2310.06147},年份={2023}}