นักพายผลไม้สามคนที่มีไหวพริบรวมกันเท่ากับจูกัดเหลียงผู้บงการ ---สุภาษิตโบราณของจีน
เราขอแนะนำคำศัพท์วิเศษแบบ Zero-shot ใหม่ที่ปรับปรุงความสามารถในการให้เหตุผลของโมเดลภาษา: การอภิปรายแบบกลุ่ม !
ในการประชุมและเวิร์คช็อป จะมี การอภิปรายเชิงลงโทษ ระหว่างผู้เชี่ยวชาญอยู่เสมอ และผู้คนก็แลกเปลี่ยนความคิดเห็นในหัวข้อที่กำหนด ปรับปรุงความเข้าใจในแนวคิดใหม่ เปลี่ยนมุมมองของการคิด และเข้าถึงความเข้าใจที่ครอบคลุมมากขึ้นเกี่ยวกับการอภิปรายหรือการอภิปรายที่มีอยู่
รูปที่ 1: การอภิปรายแบบกลุ่มระหว่าง Jack Ma และ Elon Musk, WAIC, 2019:
แนวคิดนี้เกี่ยวข้องกับงานที่ต้องพึ่งพาตนเอง (Wang, Xuezhi, et al.) (เนื่องจากผู้เชี่ยวชาญหลายคนอาจไม่เห็นด้วยซึ่งกันและกันในระหว่างการอภิปรายเป็นคณะ)
เราประเมินประสิทธิผลของวิธีการแจ้งที่เสนอบนชุดข้อมูล GSM8K โดยใช้ gpt-3.5-turbo api
ค่าใช้จ่ายในการประเมินแต่ละพรอมต์บนชุดข้อมูลทดสอบ 1,000 GSM8k นั้นน้อยกว่า 2 USD
การอภิปรายแบบกลุ่มของเราทำให้ได้รับ ประสิทธิภาพที่ดีที่สุด และการศึกษาการระเหยแสดงให้เห็นความสำคัญของประโยชน์ของแต่ละองค์ประกอบ อันดับสองที่ดีที่สุด และ อันดับที่ดีที่สุดอันดับสาม จะแสดงด้วยรูปแบบขีดเส้นใต้และ ตัวเอียง ตามลำดับ
วิธีชุดข้อมูล | GSM8K (ทดสอบ 1k) | เนื้อหาพร้อมท์ | อ้างอิง |
---|---|---|---|
ไม่มีพร้อมท์ | 0.789 | คำตอบคือ: | - |
Zero-Shot CoT | 0.854 | ลองคิดทีละขั้นตอน: | (โคจิมะ, ทาเคชิ และคณะ 2022) |
APE ปรับปรุง CoT | 0.845 | เรามาดูรายละเอียดทีละขั้นตอนเพื่อให้แน่ใจว่าเรามีคำตอบที่ถูกต้อง: | (Zhou, Yongchao, et al. 2023) |
ทีโอทีพร้อมท์ | 0.842 | ลองนึกภาพผู้เชี่ยวชาญสามคนกำลังตอบคำถามนี้ ผู้เชี่ยวชาญทุกคนจะจดขั้นตอนการคิด 1 ขั้น แล้วแชร์กับกลุ่ม จากนั้นผู้เชี่ยวชาญทั้งหมดจะไปยังขั้นตอนต่อไป ฯลฯ หากผู้เชี่ยวชาญคนใดรู้ว่าตนผิด ณ จุดใดก็ลาออก | (Repo ของ Dave Hulbert 2023) |
แผง GPT | 0.899 | ผู้เชี่ยวชาญ 3 คนกำลังหารือเกี่ยวกับคำถามนี้ด้วยการอภิปราย แบบกลุ่ม โดยพยายามแก้ไขทีละขั้นตอน และตรวจสอบให้แน่ใจว่าผลลัพธ์นั้นถูกต้อง และหลีกเลี่ยงการลงโทษ : | (รายงานฉบับนี้วันที่ 18 กรกฎาคม 2566) |
PanelGPT ที่ไม่มี AE และ EA | 0.878 | ผู้เชี่ยวชาญ 3 คนกำลังหารือเกี่ยวกับคำถามนี้ พยายามแก้ไขทีละขั้นตอน และตรวจสอบให้แน่ใจว่าผลลัพธ์ถูกต้อง: | (ของเรา การศึกษาการระเหย) |
PanelGPT ที่ไม่มี AE | 0.84 | ผู้เชี่ยวชาญ 3 คนกำลังหารือเกี่ยวกับคำถามนี้ พยายามแก้ไขทีละขั้นตอน และให้แน่ใจว่าผลลัพธ์ถูกต้องและหลีกเลี่ยงการลงโทษ: | (ของเรา การศึกษาการระเหย) |
PanelGPT ที่ไม่มี EA | 0.894 | ผู้เชี่ยวชาญ 3 คนกำลังหารือเกี่ยวกับคำถามนี้ด้วยการอภิปรายแบบกลุ่ม โดยพยายามแก้ไขทีละขั้นตอน และตรวจสอบให้แน่ใจว่าผลลัพธ์ถูกต้อง: | (ของเรา การศึกษาการระเหย) |
ป จ n ก lGPT (สะกดผิด) | 0.883 | ผู้เชี่ยวชาญ 3 คนกำลังอภิปรายคำถามนี้ด้วยการสนทนาเชิงทัณฑ์ พยายามแก้ไขทีละขั้นตอน และตรวจสอบให้แน่ใจว่าผลลัพธ์ถูกต้อง: | (ของเรา การศึกษาการระเหย) |
ความสามารถของ Zero-shot prompting ปรากฏในโมเดลภาษาที่ได้รับการฝึกกับข้อมูลจำนวนมาก เช่น GPT-3 และ GPT-4 (Ouyang et al., 2022; OpenAI, 2023) และมันถูกแสดงใน Wei และคณะ (2021) การปรับแต่งคำสั่งอย่างละเอียดช่วยเพิ่มความสามารถในการเรียนรู้แบบ Zero-Shot ของโมเดลภาษา
แม้ว่าโมเดลที่ใช้ภาษาขนาดใหญ่จะแสดงประสิทธิภาพการถ่ายภาพเป็นศูนย์ที่น่าประทับใจ แต่โมเดลเหล่านี้มักจะแสดงประสิทธิภาพที่ไม่ดีนักในการดำเนินการที่ซับซ้อนมากขึ้นภายใต้การตั้งค่าการถ่ายภาพเป็นศูนย์ การใช้ประโยชน์จากการกระตุ้นเตือนไม่กี่ครั้งนำเสนอแนวทางที่ใช้ได้จริงในการอำนวยความสะดวกในการเรียนรู้ในบริบท (Brown et al., 2020; Min et al., 2022) เทคนิคนี้จำเป็นต้องรวมการสาธิตไว้ภายในพร้อมท์ เพื่อชี้แนะแบบจำลองไปสู่ประสิทธิภาพที่เพิ่มขึ้นอย่างมีประสิทธิภาพ การสาธิตเหล่านี้ทำหน้าที่เป็นกลไกการปรับเงื่อนไขสำหรับตัวอย่างที่ประสบความสำเร็จ ซึ่งนำไปสู่แบบจำลองในการสร้างการตอบสนองที่ดีขึ้น
ในงานที่ท้าทายบางอย่าง เช่น งานเลขคณิตที่ซับซ้อน สามัญสำนึก และงานการใช้เหตุผลเชิงสัญลักษณ์ การกระตุ้นลูกโซ่แห่งความคิด (CoT) แสดงให้เห็นว่ามีประสิทธิภาพมากขึ้นในการช่วยให้แบบจำลองภาษาได้รับคำตอบที่ถูกต้อง (Wei et al., 2022) CoT มีขั้นตอนการให้เหตุผลเพิ่มเติมในตัวอย่างพร้อมท์สั้นๆ โคจิมะ และคณะ (2022) แนะนำ Zero-shot CoT เพิ่มเติม ซึ่งแสดงให้เห็นว่าการเพิ่มคำสั่งที่ไม่เชื่อเรื่องงานสามารถปรับปรุงประสิทธิภาพของโมเดลในงานเฉพาะได้ ในจางและคณะ (2022b), Auto-CoT ผสมผสานความเป็นสากลของ Zero-shot CoT และความสามารถของ CoT ดั้งเดิมที่ขับเคลื่อนโดยการสาธิต และเสนอให้สร้างการสาธิตโดยอัตโนมัติตามการจัดกลุ่มและการสุ่มตัวอย่างตามความหลากหลายซึ่งเป็นประโยชน์ต่อการใช้เหตุผลของ CoT
วังและคณะ (2022) ปรับปรุงวิธี CoT แบบไม่กี่ช็อตโดยการสุ่มตัวอย่างเส้นทางการให้เหตุผลที่หลากหลาย และลดขนาดเส้นทางเหล่านั้น โดยเลือกคำตอบที่สอดคล้องกันมากที่สุดในบรรดาเส้นทางการให้เหตุผลตัวอย่างทั้งหมด ความรู้ที่สร้างขึ้นพร้อมท์หลิว และคณะ (2021) ปรับปรุงการให้เหตุผลแบบสามัญสำนึกโดยผสมผสานความรู้หรือข้อมูลที่เกี่ยวข้องกับคำถามเพื่อให้สามารถคาดการณ์ได้แม่นยำยิ่งขึ้น วิธีการแบบต้นไม้แห่งความคิด (ToT) (Long, 2023; Yao et al., 2023) รวมวิธีการวางแผนแบบต้นไม้เข้ากับทักษะการใช้เหตุผลของแบบจำลองภาษา และแก้ปัญหาการใช้เหตุผลแบบยากๆ ทีละขั้นตอนผ่านการสนทนาหลายรอบ Hulbert (2023) ยังหยิบยกแนวคิดที่เกี่ยวข้องซึ่งใช้ประโยชน์จากความคิดที่หลากหลายของแบบจำลองภาษาในข้อความเดียว หน่วยความจำและการเรียกข้อมูล Augmented Generation (RAG) (Lewis et al., 2020) ซึ่งสามารถรวมหน่วยความจำแบบพาราเมตริกและหน่วยความจำแบบไม่มีพารามิเตอร์ เช่น Wikipedia ในการทำงานที่ต้องใช้ความรู้มากได้สำเร็จ MoT (Li & Qiu, 2023): การคิดล่วงหน้าโดยอิงตามชุดข้อมูลภายนอกที่ไม่มีป้ายกำกับ จากนั้นจึงนึกถึงความรู้ที่เกี่ยวข้องในระหว่างการอนุมาน
Prompt-OIRL แนะนำแนวคิดในการใช้การเรียนรู้การเสริมแรงผกผันแบบออฟไลน์เพื่อทำการประเมินและเพิ่มประสิทธิภาพพร้อมท์แบบออฟไลน์ วิธีนี้มีประสิทธิภาพและประสิทธิผล การฝึกอบรม Prompt-OIRL บนชิป M2 MacBook Air ใช้เวลาเพียง 1 ชั่วโมง แต่ ประสิทธิภาพของ LLM ต่างๆ ในงานการให้เหตุผลทางคณิตศาสตร์สามารถปรับปรุงได้สูงสุดถึง 24%
หากคุณใช้โค้ดของเราและแจ้ง โปรดพิจารณาอ้างอิงเอกสารของเรา:
@inproceedings{sun2023query, title={การประเมินและการเพิ่มประสิทธิภาพพร้อมท์ขึ้นอยู่กับแบบสอบถามด้วย Offline Inverse RL}, author={Sun, Hao และ H{"u}y{"u}k, Alihan และ van der Schaar, Mihaela}, ชื่อหนังสือ ={การประชุมนานาชาติครั้งที่ 12 ว่าด้วยการเป็นตัวแทนการเรียนรู้}, ปี={2023}}@article{sun2023reinforcement, title={การเรียนรู้แบบเสริมกำลังในยุคของ LLM: อะไรคือสิ่งสำคัญ? สิ่งที่จำเป็น? มุมมอง RL เกี่ยวกับ RLHF, Prompting, and Beyond}, author={Sun, Hao}, Journal={arXiv preprint arXiv:2310.06147}, year={2023}}