การแจ้งโดยเจตนาที่ยอดเยี่ยม
วิธีขอให้โมเดลภาษาขนาดใหญ่ (LLM) สร้างเหตุผลที่น่าเชื่อถือและตัดสินใจโดยคำนึงถึงเหตุผล
การไตร่ตรอง
การกระทำของการคิดอย่างรอบคอบเกี่ยวกับบางสิ่งบางอย่างโดยเฉพาะ เพื่อบรรลุการตัดสินใจ การพิจารณาอย่างรอบคอบ การกระทำหรือกรณีนี้ (โออีดี)
สารบัญ
- เรื่องราวความสำเร็จ
- รูปแบบและกลยุทธ์การกระตุ้นเตือน
- นอกเหนือจาก “ลองคิดดูทีละขั้นตอน”
- การพิจารณาหลายตัวแทน
- การสะท้อนกลับและ Meta-Cognition
- เทคนิคการสร้างข้อความ
- การแก้ไขตนเอง
- การวิเคราะห์การใช้เหตุผล
- ข้อจำกัด ความล้มเหลว ปริศนา
- ชุดข้อมูล
- เครื่องมือและกรอบการทำงาน
- แหล่งข้อมูลอื่นๆ
เรื่องราวความสำเร็จ
หลักฐานอันน่าทึ่งเกี่ยวกับประสิทธิผลของการกระตุ้นเตือนโดยเจตนา
- - เอกสาร "ห่วงโซ่แห่งแม้ว่า" ต้นฉบับ (CoT) ฉบับแรกเพื่อให้หลักฐานที่ชัดเจนว่าการกระตุ้นเตือนโดยเจตนาได้ผล "การกระตุ้นความคิดแบบลูกโซ่ทำให้เกิดการใช้เหตุผลในแบบจำลองภาษาขนาดใหญ่" 28-01-2022. [>กระดาษ]
- - การพร้อมท์โดยเจตนาจะช่วยเพิ่มความสามารถของ LLM ของ Google ในการแก้ปัญหายากๆ ที่มองไม่เห็น และโมเดลที่ได้รับการปรับแต่งคำสั่ง (Flan-) ก็ทำได้ดีกว่ามาก
- "การปรับขนาดคำสั่ง - โมเดลภาษาที่ปรับแต่งอย่างละเอียด" 06-12-2022. [>กระดาษ]
- "รายงานทางเทคนิคของ PaLM 2" 17-05-2023. [>กระดาษ]
- - การพร้อมท์โดยเจตนามีประสิทธิภาพสูงสำหรับโมเดลของ OpenAI (Text-Davinci-003, ChatGPT, GPT-4) ซึ่งเพิ่มความแม่นยำในงานการให้เหตุผลหลายๆ อย่าง (แต่ไม่ใช่ทั้งหมด) ในเกณฑ์มาตรฐาน EvalAGI "AGIEval: เกณฑ์มาตรฐานที่มีมนุษย์เป็นศูนย์กลางในการประเมินแบบจำลองพื้นฐาน" 13-04-2023. [>กระดาษ]
- - การพร้อมท์โดยเจตนาจะปลดล็อกทักษะการรับรู้ที่แฝงอยู่ และมีประสิทธิภาพมากกว่าสำหรับโมเดลที่ใหญ่กว่า "งาน BIG-Bench ที่ท้าทาย และห่วงโซ่ความคิดสามารถแก้ปัญหาได้หรือไม่" 17-10-2022. [>กระดาษ]
- - การแนะนำข้อผิดพลาดแบบทดลองในการติดตามการใช้เหตุผลของ CoT จะลดความแม่นยำในการตัดสินใจ ซึ่งให้หลักฐานทางอ้อมสำหรับการตอบสนองเหตุผลของ LLM "การทดสอบความเครียดต่อเนื่องของความคิดสำหรับโมเดลภาษาขนาดใหญ่" 28-09-2023. [>กระดาษ]
- - การใช้เหตุผล (เกี่ยวกับการดึงข้อมูลผู้สมัคร) ปรับปรุง RAG "Self-RAG: การเรียนรู้ที่จะดึงข้อมูล สร้าง และวิจารณ์ผ่านการไตร่ตรองตนเอง" 17-10-2023. [>กระดาษ]
- - บันทึกการอ่านโดยเจตนาช่วยปรับปรุง RAG "Chain-of-Note: การปรับปรุงความทนทานในโมเดลภาษาที่ดึงข้อมูลมาเสริม" 15-11-2566. [>กระดาษ]
- - การใช้เหตุผลที่ดี (CoT) ทำให้เกิดคำตอบที่ดี (เช่น LLM ตอบสนองต่อเหตุผล) "นามธรรมเชิงสาเหตุสำหรับการใช้เหตุผลแบบลูกโซ่แห่งความคิดในปัญหาคำเลขคณิต" 07-12-2023. [>กระดาษ]
- - การตีความเชิงตรรกะของการประมวลผลงานการให้เหตุผลแบบชั้นภายในจะให้หลักฐานเพิ่มเติมสำหรับการตอบสนองอย่างมีเหตุผล "สู่การตีความเชิงกลไกของความสามารถในการใช้เหตุผลหลายขั้นตอนของแบบจำลองภาษา" 07-12-2023. [>กระดาษ]
- - การใช้เหตุผลเกี่ยวกับฉบับร่างทางเลือกช่วยปรับปรุงการสร้างข้อความ "การประเมินตนเองปรับปรุงการเลือกรุ่นในแบบจำลองภาษาขนาดใหญ่" 14-12-2566. [>กระดาษ]
- - CoT พร้อมการสาธิตการใช้เหตุผลที่หลากหลายและดึงข้อมูลมาอย่างรอบคอบ ช่วยเพิ่ม LLM แบบหลายรูปแบบ "การให้เหตุผลแบบห่วงโซ่แห่งความคิดหลายรูปแบบที่ดึงข้อมูลมาเสริมสำหรับแบบจำลองภาษาขนาดใหญ่" 04-12-2023. [>กระดาษ]
- - Multi-hop CoT ที่มีประสิทธิภาพสำหรับการตอบคำถามด้วยภาพ "II-MMR: การระบุและปรับปรุงการใช้เหตุผลหลายรูปแบบหลายรูปแบบในการตอบคำถามด้วยภาพ" 16-02-2024. [>กระดาษ]
- - DPO ในการติดตาม CoT สังเคราะห์ช่วยเพิ่มการตอบสนองอย่างมีเหตุผลของ LLM ขนาดเล็ก "การสร้างเหตุผลเป็นสิ่งสำคัญ: การวัดและการปรับปรุงความซื่อสัตย์ของการใช้เหตุผลแบบลูกโซ่แห่งความคิด" 23-02-2024 [>กระดาษ] [>รหัส]
รูปแบบและกลยุทธ์การกระตุ้นเตือน
แจ้งกลยุทธ์และรูปแบบเพื่อให้ LLM มีเจตนา
นอกเหนือจาก “ลองคิดดูทีละขั้นตอน”
การสอน LLM ให้มีเหตุผล (ในลักษณะเฉพาะ)
- - การขอให้ GPT-4 ระบุคำตอบที่ถูกและผิดจะช่วยเพิ่มความแม่นยำ "แบบจำลองภาษาขนาดใหญ่เป็นเหตุผลที่ตรงกันข้าม" 13-03-2024. [>กระดาษ]
- - การแจ้งแบบไดนามิกที่แนะนำจะช่วยเพิ่มประสิทธิภาพ GPT-4 CoT ได้สูงสุดถึง 30 เปอร์เซ็นต์ "พร้อมท์แนะนำโครงสร้าง: การสอนแบบจำลองภาษาขนาดใหญ่ในการให้เหตุผลแบบหลายขั้นตอนโดยการสำรวจโครงสร้างกราฟของข้อความ" 20-02-2024 [>กระดาษ]
- - การให้ LLM เลือกและผสมผสานกลยุทธ์การใช้เหตุผลจะคุ้มค่าและปรับปรุงประสิทธิภาพ "ค้นพบตนเอง: แบบจำลองภาษาขนาดใหญ่โครงสร้างการใช้เหตุผลด้วยตนเอง" 06-02-2024. [>กระดาษ]
- - CoA: สร้างการติดตามการให้เหตุผลเชิงนามธรรมก่อน แล้วกรอกรายละเอียด (โดยใช้เครื่องมือ) ในภายหลัง "การใช้เครื่องมืออย่างมีประสิทธิภาพพร้อมการให้เหตุผลแบบลูกโซ่ของนามธรรม" 30-01-2024. [>กระดาษ]
- - ให้เหตุผลซ้ำแล้วซ้ำอีกจนกว่าจะผ่านการทดสอบการตรวจสอบ "วางแผน ตรวจสอบ และเปลี่ยน: การใช้เหตุผลเชิงบูรณาการด้วย X-of-Thought ที่หลากหลาย" 23-10-2023. [>กระดาษ]
- - สร้างการพิจารณาไตร่ตรองที่หลากหลาย จากนั้นสังเคราะห์สิ่งเหล่านั้นในเส้นทางการใช้เหตุผลเดียว "ถามอีกครั้ง: การยอมรับในตนเองช่วยปรับปรุงการใช้เหตุผลของแบบจำลองภาษาใน (เกือบ) ทุกสถานการณ์" 14-11-2566. [>กระดาษ]
- - การสำรวจ CoT เกี่ยวกับประเภทงาน การออกแบบที่รวดเร็ว และตัวชี้วัดคุณภาพการให้เหตุผล "สู่กลยุทธ์การกระตุ้นห่วงโซ่แห่งความคิดที่ดีขึ้น: แบบสำรวจ" 08-10-2023. [>กระดาษ]
- - การถาม LLM เกี่ยวกับบริบทที่กว้างขึ้นของปัญหานำไปสู่คำตอบที่ดีกว่า "ย้อนกลับไป: การกระตุ้นการใช้เหตุผลผ่านนามธรรมในแบบจำลองภาษาขนาดใหญ่" 09-10-2023. [>กระดาษ]
- ข้อดีและข้อเสียในการชั่งน้ำหนัก: กระบวนทัศน์การพิจารณาแบบสากลนี้สามารถนำไปใช้กับ LLM ได้
- ? โปรแกรม {{guidance}} ที่ทำ: 1. ระบุตัวเลือก → 2. สร้างข้อดีและข้อเสีย → 3. ชั่งน้ำหนักเหตุผล → 4. ตัดสินใจ [>รหัส]
- - การวางแผนและแก้ไขพร้อมท์ "การกระตุ้นแบบวางแผนและแก้ไข: การปรับปรุงการใช้เหตุผลแบบลูกโซ่แห่งความคิดแบบ Zero-Shot ด้วยโมเดลภาษาขนาดใหญ่" 06-05-2023. [>กระดาษ] [>รหัส]
- - การจดบันทึก "การเรียนรู้การใช้เหตุผลและการจดจำด้วยการจดบันทึกด้วยตนเอง" 01-05-2023. [>กระดาษ]
- - Deliberate-then-Generate ปรับปรุงคุณภาพข้อความ "จงใจแล้วสร้าง: กรอบการแจ้งที่ได้รับการปรับปรุงสำหรับการสร้างข้อความ" 31-05-2023. [>กระดาษ]
- - ทำให้ LLM แทรกเหตุผลและถามตอบได้อย่างเป็นธรรมชาติ "ReAct: การประสานการใช้เหตุผลและการแสดงในรูปแบบภาษา" 06-10-2022. [>กระดาษ]
- - คำสั่ง 'Divide-and-Conquer' มีประสิทธิภาพเหนือกว่า CoT มาตรฐานอย่างมาก "การแจ้งน้อยที่สุดถึงมากที่สุดช่วยให้ใช้เหตุผลที่ซับซ้อนในแบบจำลองภาษาขนาดใหญ่" 21-05-2022 [>กระดาษ]
การพิจารณาหลายตัวแทน
ให้ LLM หนึ่ง (หรือหลายราย) จำลองข้อโต้แย้งอย่างเสรี
- - เลือก LLM แบบเปิดอย่างระมัดระวังซึ่งจะทบทวนและปรับปรุงคำตอบซ้ำแล้วซ้ำเล่าให้มีประสิทธิภาพเหนือกว่า GPT4-o "การผสมผสานของตัวแทนช่วยเพิ่มความสามารถของโมเดลภาษาขนาดใหญ่" 10-06-2024. [>กระดาษ] [>รหัส]
- - โดยทั่วไปแล้วการออกแบบระบบหลายตัวแทนที่ซับซ้อนและมีราคาแพงกว่ามักจะมีประสิทธิภาพมากกว่า ตามการทบทวนนี้: "เราจะไปสู่ MAD หรือไม่ การเปรียบเทียบการอภิปรายหลายตัวแทนระหว่างแบบจำลองภาษาสำหรับคำถามและคำตอบทางการแพทย์" 19-11-2023. [>กระดาษ]
- - การทบทวนโดยผู้ทรงคุณวุฒิอย่างเป็นระบบยังดีกว่าการอภิปรายแบบหลายตัวแทนอีกด้วย "สู่การใช้เหตุผลในแบบจำลองภาษาขนาดใหญ่ผ่านการทำงานร่วมกันระหว่างตัวแทนหลายตัวแทน" 14-11-2566. [>กระดาษ]
- - การวิพากษ์วิจารณ์และการไตร่ตรองโดยรวมช่วยลดภาพหลอนและความเป็นพิษจากข้อเท็จจริง "N-Critics: การปรับแต่งโมเดลภาษาขนาดใหญ่ด้วยตนเองพร้อมทั้งกลุ่มนักวิจารณ์" 28-10-2023. [>กระดาษ]
- - กระบวนการของ Delphi ที่มี LLM ที่หลากหลายนั้นมีคุณค่ามากกว่าการโต้วาทีธรรมดาๆ "การกระทบยอด: การประชุมโต๊ะกลมปรับปรุงการให้เหตุผลผ่านความเห็นพ้องต้องกันระหว่าง LLM ที่มีความหลากหลาย" 22-09-2023. [>กระดาษ] [>รหัส]
- - การอภิปรายหลายตัวแทนเพิ่มความหลากหลายทางปัญญาเพิ่มประสิทธิภาพ "การส่งเสริมการคิดที่แตกต่างในรูปแบบภาษาขนาดใหญ่ผ่านการโต้วาทีแบบหลายตัวแทน" 30-05-2023. [>กระดาษ]
- - ใช้ประโยชน์จากภูมิปัญญาของผลกระทบจากฝูงชนผ่านการจำลองการอภิปราย "การปรับปรุงความเป็นจริงและการใช้เหตุผลในแบบจำลองภาษาผ่านการโต้วาทีแบบหลายตัวแทน" 23-05-2023. [>กระดาษ]
- - จำลองบทสนทนาแบบเสวนาเพื่อแก้ไขปัญหาร่วมกันกับตัวแทน AI หลายคน "วิธีการเสวนาเพื่อการค้นพบตนเองในรูปแบบภาษาขนาดใหญ่" 05-05-2023. [>บล็อก] [>โค้ด]
การสะท้อนกลับและ Meta-Cognition
กลยุทธ์การให้เหตุผลลำดับที่สูงกว่าที่อาจปรับปรุงการพิจารณาลำดับแรก
- - การติดตามข้อมูลเชิงลึก ทั่วไป ที่ได้รับจากการแก้ปัญหา CoT จะช่วยเพิ่มความแม่นยำและประสิทธิภาพในอนาคต "บัฟเฟอร์ของความคิด: การใช้เหตุผลเสริมความคิดด้วยแบบจำลองภาษาขนาดใหญ่" 06-06-2024. [>กระดาษ] [>รหัส]
- - การประมวลผลงานตามระดับความยากที่ประเมินด้วยตนเองช่วยเพิ่มประสิทธิภาพ CoT "แบ่งแยกและพิชิตเพื่อการให้เหตุผลแบบจำลองภาษาขนาดใหญ่" 10-01-2024. [>กระดาษ] [>รหัส]
- - การไตร่ตรองงานช่วยให้ LLM สร้างคำแนะนำ การสาธิต และการติดตามการให้เหตุผลที่มีประสิทธิภาพมากขึ้นโดยอัตโนมัติ "Meta-CoT: การกระตุ้นความคิดแบบต่อเนื่องทั่วไปในสถานการณ์งานผสมด้วยโมเดลภาษาขนาดใหญ่" 11-10-2023. [>กระดาษ] [>รหัส]
- - ผู้สอน AI ที่ใช้ LLM คิดค้นคำสั่ง CoT ลำดับแรกที่มีประสิทธิภาพ (โมเดลโอเพ่นซอร์สปรับปรุงได้มากถึง 20%) "ตัวแทนสั่งให้โมเดลภาษาขนาดใหญ่เป็นผู้ให้เหตุผลแบบ Zero-Shot ทั่วไป" 05-10-2023. [>กระดาษ] [>รหัส]
- - ชี้แจง→ผู้พิพากษา→ประเมิน→ยืนยัน→กระบวนทัศน์คุณสมบัติ "การกระตุ้นอภิปัญญาช่วยเพิ่มความเข้าใจในแบบจำลองภาษาขนาดใหญ่" 10-08-2023. [>กระดาษ] [>รหัส]
- - ค้นหาแล้วจำลองกลยุทธ์ผู้เชี่ยวชาญสำหรับปัญหานี้ "การเขียนโปรแกรมแบบทันทีสำหรับโมเดลภาษาขนาดใหญ่: เหนือกว่ากระบวนทัศน์แบบไม่กี่ช็อต" 15-02-2021. [>กระดาษ] [>lmql]
เทคนิคการสร้างข้อความ
เทคนิคการสร้างข้อความซึ่งสามารถใช้ร่วมกับรูปแบบและกลยุทธ์การกระตุ้นเตือนได้
- - การแก้ไขการให้เหตุผลซ้ำๆ ตามการติดตาม CoT ก่อนหน้านี้ช่วยเพิ่มความแม่นยำได้ 10-20% "หนู: การดึงความคิดเสริมมาใช้ให้เกิดการใช้เหตุผลตามบริบทในการสร้างโลกทัศน์อันยาวนาน" 08-03-2024. [>กระดาษ]
- - ขั้นตอนสำหรับการสร้างด้วยตนเองและการเลือกการสาธิต CoT เพียงไม่กี่ช็อตที่มีประสิทธิภาพ "การแจ้งเตือนแบบปรับตัวเองสากล" 24-05-2023. [>กระดาษ]
- - การใช้เหตุผลมากขึ้น (= ร่องรอยการให้เหตุผลที่ยาวนานขึ้น) จะดีกว่า "ผลกระทบของความยาวขั้นตอนการใช้เหตุผลต่อแบบจำลองภาษาขนาดใหญ่" 10-01-2024. [>กระดาษ]
- - การมี (ตามป้ายกำกับ) การสาธิตการให้เหตุผลที่ถูกต้อง และ ผิดพลาด (ไม่กี่ช็อต) จะช่วยปรับปรุง CoT "การกระตุ้นเตือนห่วงโซ่แห่งความคิดที่ตรงกันข้าม" 17-11-2566. [>กระดาษ]
- - การแก้ปัญหาและการไตร่ตรองที่ดีขึ้นผ่านการลองผิดลองถูกไม่กี่ครั้ง (RL ในบริบท) "การสะท้อนกลับ: ตัวแทนภาษาพร้อมการเรียนรู้การเสริมกำลังทางวาจา" 2023-03-20. [>กระดาษ]
- - คำแนะนำภายนอกที่จำกัดการสร้างเหตุผลจะปรับปรุงความแม่นยำได้ถึง 35% ในงานที่เลือก “การรับรองการใช้เหตุผลด้วยแบบจำลองภาษา” 06-06-2023. [>กระดาษ]
- - การค้นหาลำแสงที่มีประสิทธิภาพสูงสำหรับการสร้างตอนการให้เหตุผลที่ซับซ้อนและหลายขั้นตอน "ต้นไม้แห่งความคิด: การแก้ปัญหาโดยเจตนาด้วยแบบจำลองภาษาขนาดใหญ่" 17-05-2023. [>กระดาษ] [>รหัส]
- การนำ Tree-of-Thought ไปใช้อย่างเรียบง่ายและรวดเร็ว [>รหัส]
- การนำ LMQL เชิงทดลองไปใช้ของ Tree-of-Thoughts [>รหัส]
- - LLM สร้างการสาธิตการให้เหตุผลที่หลากหลายโดยอัตโนมัติเพื่อใช้ในการกระตุ้นโดยเจตนา "ห่วงโซ่แห่งความคิดอัตโนมัติในแบบจำลองภาษาขนาดใหญ่" 07-10-2022. [>กระดาษ] [>รหัส]
การแก้ไขตนเอง
ให้ LLM แก้ไขการพิจารณาของตนเองด้วยตนเอง
- - ความสอดคล้องระหว่างการติดตาม CoT หลายรายการเป็นตัวบ่งชี้ความน่าเชื่อถือของการใช้เหตุผล ซึ่งสามารถนำไปใช้ประโยชน์สำหรับการตรวจสอบ/การรวมกลุ่มด้วยตนเอง "เราสามารถตรวจสอบทีละขั้นตอนเพื่อตรวจหาคำตอบที่ไม่ถูกต้องได้หรือไม่" 16-02-2024. [>กระดาษ]
- - เปลี่ยน LLM ให้เป็นเครื่องตรวจสอบตัวเองโดยการเพิ่มขั้นตอนการแก้ไขตัวเองเข้ากับการติดตาม CoT มาตรฐานเพื่อการปรับแต่ง "แบบจำลองภาษาขนาดเล็กสามารถแก้ไขได้ด้วยตนเอง" 14-01-2024. [>กระดาษ]
- - การฝึกอบรมตนเองแบบเสริมกำลังช่วยปรับปรุง Q/A แบบมัลติฮอปที่ดึงข้อมูลมาเสริม "ReST พบกับ ReAct: การพัฒนาตนเองสำหรับตัวแทน LLM การใช้เหตุผลแบบหลายขั้นตอน" 15-12-2566. [>กระดาษ]
- - การแก้ไขตนเองแบบมีเงื่อนไขขึ้นอยู่กับว่าคำถามเชิงวิพากษ์ได้รับการแก้ไขอย่างมีเหตุผลหรือไม่ "ศิลปะแห่งการปรับแต่ง LLM: ถาม ปรับแต่ง และไว้วางใจ" 14-11-2566. [>กระดาษ]
- - การปรับปรุงการให้เหตุผลซ้ำแล้วซ้ำอีกโดยได้รับผลป้อนกลับที่หลากหลายจะช่วยเพิ่มความแม่นยำได้ถึง 10% (ChatGPT) "MAF: ผลตอบรับหลายแง่มุมสำหรับการปรับปรุงการใช้เหตุผลในแบบจำลองภาษาขนาดใหญ่" 19-10-2023. [>กระดาษ]
- - การสอนแบบจำลองเพียงเพื่อ "ทบทวน" คำตอบและ "ค้นหาปัญหา" ไม่ได้นำไปสู่การแก้ไขตนเองที่มีประสิทธิผล "แบบจำลองภาษาขนาดใหญ่ยังไม่สามารถให้เหตุผลในการแก้ไขตนเองได้" 25-09-2023. [>กระดาษ]
- - LLM สามารถคิดและตอบคำถามที่สำคัญเพื่อปรับปรุงแบบร่างได้ "การตรวจสอบแบบลูกโซ่ช่วยลดอาการประสาทหลอนในแบบจำลองภาษาขนาดใหญ่" 25-09-2023. [>กระดาษ]
- - LogiCoT: ตรวจสอบตัวเองและแก้ไขหลังจากแต่ละขั้นตอน CoT ปรับปรุงประสิทธิภาพ (สำหรับงานและรุ่นที่เลือก) "การเพิ่มประสิทธิภาพการใช้เหตุผลแบบลูกโซ่แห่งความคิดแบบ Zero-Shot ในแบบจำลองภาษาขนาดใหญ่ผ่านทางลอจิก" 23-09-2023. [>กระดาษ]
- - บทวิจารณ์ที่ยอดเยี่ยมเกี่ยวกับ LLM การแก้ไขตนเอง พร้อมการประยุกต์ใช้กับการให้เหตุผลที่ไม่ซื่อสัตย์ "การแก้ไขแบบจำลองภาษาขนาดใหญ่โดยอัตโนมัติ: การสำรวจภูมิทัศน์ของกลยุทธ์การแก้ไขตนเองที่หลากหลาย" 06-08-2023. [>กระดาษ]
การวิเคราะห์การใช้เหตุผล
วิธีการวิเคราะห์การพิจารณา LLM และการประเมินคุณภาพการใช้เหตุผล
- ?? การวิเคราะห์การให้เหตุผลตาม LLM ที่ครอบคลุมซึ่งแบ่งข้อความออกเป็นเหตุผลส่วนบุคคล "ความสอดคล้อง DCR: การแบ่งแยก - การพิชิต - เหตุผลสำหรับการประเมินความสอดคล้องและปรับปรุงแบบจำลองภาษาขนาดใหญ่" 04-01-2024. [>กระดาษ] [>รหัส]
- - LLM แบบเปิด (แบบ T5) ประสิทธิภาพสูงสำหรับการตรวจสอบยืนยันการอนุมาน "จิตใจกับเครื่องจักร: คิดใหม่เกี่ยวกับการตรวจสอบความถูกต้องด้วยแบบจำลองภาษา" 06-02-2024. [>กระดาษ] [>รุ่น]
- ?? ทดสอบชุดข้อมูลสำหรับผู้ประเมิน CoT "ห่วงโซ่แห่งความคิดมีความแข็งแกร่งเท่ากับจุดอ่อนที่สุด: เกณฑ์มาตรฐานสำหรับผู้ตรวจสอบห่วงโซ่การใช้เหตุผล" 23-11-2023. [>กระดาษ] [>ชุดข้อมูล]
- ?? กรอบการทำงานสำหรับการประเมินห่วงโซ่การใช้เหตุผลโดยมองว่าเป็นข้อพิสูจน์อย่างไม่เป็นทางการซึ่งได้คำตอบสุดท้าย "ReCEval: การประเมินห่วงโซ่การให้เหตุผลผ่านความถูกต้องและการให้ข้อมูล" 23-11-2023. [>กระดาษ] [>รหัส]
- - GPT-4 ทำนายได้ดีกว่า 5 เท่าว่าการใช้เหตุผลทางคณิตศาสตร์ถูกต้องมากกว่า GPT-3.5 "ท้าทาย LLM ให้เหตุผลเกี่ยวกับการให้เหตุผล: เกณฑ์มาตรฐานเพื่อเปิดเผยความลึกของความรู้ความเข้าใจใน LLM" 28-12-2023. [>กระดาษ]
- - GPT-4 แบบเรียบง่ายพร้อมท์สำหรับการประเมินคุณภาพการใช้เหตุผล "SocREval: โมเดลภาษาขนาดใหญ่พร้อมวิธีโสคราตีสสำหรับการประเมินการใช้เหตุผลแบบไม่มีการอ้างอิง" 29-09-2023. [>กระดาษ] [>รหัส]
- ?? ตัวชี้วัดอัตโนมัติที่อิงความหมายและคล้ายคลึงกันสำหรับการประเมินการติดตาม CoT (ความซ้ำซ้อน ความซื่อสัตย์ ความสม่ำเสมอ ฯลฯ) "ROSCOE: ชุดเมตริกสำหรับการให้คะแนนการใช้เหตุผลทีละขั้นตอน" 12-09-2023. [>กระดาษ]
ข้อจำกัด ความล้มเหลว ปริศนา
สิ่งที่ใช้งานไม่ได้หรือไม่เข้าใจ
- - ความเสี่ยงในการสร้างแบบมีโครงสร้างเพื่อลดคุณภาพการใช้เหตุผลและประสิทธิภาพของ CoT "ให้ฉันพูดได้อย่างอิสระหรือไม่ การศึกษาเกี่ยวกับผลกระทบของการจำกัดรูปแบบต่อประสิทธิภาพของโมเดลภาษาขนาดใหญ่" 05-08-2024. [>กระดาษ]
- - โทเค็นตัวเติมสามารถมีประสิทธิผลพอๆ กับการติดตามการให้เหตุผลที่ดีในการดึงคำตอบที่ถูกต้อง "ลองคิดแบบ Dot by Dot: การคำนวณที่ซ่อนอยู่ในโมเดลภาษา Transformer" 24-04-2024. [>กระดาษ]
- - การวิเคราะห์เชิงสาเหตุแสดงให้เห็นว่าบางครั้ง LLM เพิกเฉยต่อการติดตาม CoT แต่การตอบสนองของเหตุผลจะเพิ่มขึ้นตามขนาดโมเดล และถูกกำหนดโดยการปรับแต่งอย่างละเอียด "LLM ที่มีห่วงโซ่แห่งความคิดคือผู้ให้เหตุผลแบบไม่มีเหตุผล" 25-02-2024 [>กระดาษ]
- - การใช้เหตุผลที่ไม่ถูกต้องอาจนำไปสู่ข้อสรุปที่ถูกต้อง ดังนั้นจึงจำเป็นต้องมีวิธีที่ดีกว่าในการประเมิน CoT "คะแนน: กรอบการประเมินการใช้เหตุผลที่ขัดแย้งในตนเอง" 16-11-2566. [>กระดาษ]
- - LLM อาจสร้าง "การให้เหตุผลแบบเข้ารหัส" ซึ่งมนุษย์ไม่สามารถเข้าใจได้ ซึ่งอาจทำให้กำไรจาก XAI ใดๆ ที่เป็นโมฆะจากการกระตุ้นโดยเจตนา "การป้องกันแบบจำลองทางภาษาจากการซ่อนเหตุผล" 27-10-2023. [>กระดาษ]
- - LLM ตัดสินและตัดสินใจตามหน้าที่ของข้อโต้แย้งที่มีอยู่ (การตอบสนองของเหตุผล) แต่จะได้รับอิทธิพลอย่างมากจากเหตุผลที่ผิดพลาดและหลอกลวงเมื่อเปรียบเทียบกับเหตุผลที่สมเหตุสมผล "LLM มีความอ่อนไหวต่อการเข้าใจผิดเชิงตรรกะเพียงใด" 18-08-2023. [>กระดาษ]
- - การใช้เหตุผลที่ไม่ถูกต้องช่วยเพิ่มความแม่นยำของคำตอบ (เกือบ) ได้มากเท่ากับเหตุผลที่ถูกต้อง "ตรรกะที่ไม่ถูกต้อง กำไรที่เท่ากัน: ความแปลกประหลาดของการให้เหตุผลในรูปแบบภาษา" 2023-07-20. [>กระดาษ]
- - การใช้เหตุผลแบบ Zeroshot CoT ในโดเมนที่ละเอียดอ่อนจะเพิ่มโอกาสของ LLM ในการสร้างผลลัพธ์ที่เป็นอันตรายหรือไม่พึงประสงค์ "ในความคิดที่สอง อย่าคิดทีละขั้นตอน! อคติและความเป็นพิษในการให้เหตุผลแบบ Zero-Shot" 23-06-2023. [>กระดาษ]
- - LLM อาจประดิษฐ์เหตุผล CoT ที่ผิดพลาดอย่างเป็นระบบสำหรับคำตอบที่ไม่ถูกต้อง ทีม NYU/Anthropic พบ "แบบจำลองภาษาไม่ได้พูดในสิ่งที่พวกเขาคิดเสมอไป: คำอธิบายที่ไม่ซื่อสัตย์ในการกระตุ้นความคิดแบบลูกโซ่" 07-05-2023. [>กระดาษ]
- - การไตร่ตรองเชิงปฏิบัติของ LLM นั้นไม่แข็งแกร่ง แต่ปล่อยให้หลงทางได้อย่างง่ายดายด้วยการเปลี่ยนถ้อยคำในสถานการณ์ต่างๆ "แม้จะมีการปฏิบัติงานที่ 'เหนือมนุษย์' แต่ LLM ในปัจจุบันยังไม่เหมาะสมกับการตัดสินใจเกี่ยวกับจริยธรรมและความปลอดภัย" 2022-12-13 [>กระดาษ]
ชุดข้อมูล
ชุดข้อมูลที่มีตัวอย่างของการกระตุ้นเตือนโดยเจตนา ซึ่งอาจเป็นประโยชน์สำหรับโมเดลการฝึกอบรม / การประเมินทักษะการพิจารณา
- ชุดข้อมูลที่ปฏิบัติตามคำสั่งเสริมด้วย "การติดตามการให้เหตุผล" ที่สร้างโดย LLM
- - ORCA - เอกสารต้นฉบับของ Microsoft "Orca: การเรียนรู้แบบก้าวหน้าจากร่องรอยคำอธิบายที่ซับซ้อนของ GPT-4" 05-06-2023. [>กระดาษ]
- OpenOrca - การจำลองแบบโอเพ่นซอร์สของชุดข้อมูล ORCA [>ชุดข้อมูล]
- ? Dolphin - การจำลองแบบโอเพ่นซอร์สของชุดข้อมูล ORCA [>ชุดข้อมูล]
- - ORCA 2 - ปรับปรุง Orca โดย Microsoft เช่น มีเหตุผลเมตาดาต้า "Orca 2: การสอนแบบจำลองภาษาเล็กวิธีใช้เหตุผล" 18-11-2566. [>กระดาษ]
- ?? CoT Collection - ติดตามการให้เหตุผล 1.84 ล้านรายการสำหรับงาน 1,060 รายการ "คอลเลกชัน CoT: การปรับปรุงการเรียนรู้โมเดลภาษาแบบ Zero-shot และ Few-shot ผ่านการปรับแต่งแบบลูกโซ่แห่งความคิด" [>กระดาษ] [>รหัส]
- ? OASST1 - มีคำสั่งมากกว่า 200 คำสั่งเพื่อสร้างข้อดีและข้อเสีย (ตามแผนที่ของ nomic.ai) [>ชุดข้อมูล]
- - LegalBench - เกณฑ์มาตรฐานสำหรับการใช้เหตุผลทางกฎหมายใน LLMs [>กระดาษ]
- ?? ThoughtSource - แหล่งข้อมูลแบบเปิดสำหรับข้อมูลและเครื่องมือที่เกี่ยวข้องกับการให้เหตุผลแบบลูกโซ่ทางความคิดในแบบจำลองภาษาขนาดใหญ่ [>กระดาษ] [>รหัส]
- ?? ทบทวนพร้อมคำแนะนำมากมายเกี่ยวกับชุดข้อมูลที่เกี่ยวข้องกับ CoT "ชุดข้อมูลสำหรับโมเดลภาษาขนาดใหญ่: แบบสำรวจที่ครอบคลุม" [>กระดาษ] [>รหัส]
- รายการชุดข้อมูล LLM ของ Maxime Labonne [github]
เครื่องมือและกรอบการทำงาน
เครื่องมือและกรอบการทำงานเพื่อดำเนินการพร้อมท์โดยเจตนา
- ? LMQL - ภาษาการเขียนโปรแกรมสำหรับการโต้ตอบกับโมเดลภาษา [>ไซต์]
- สนามเด็กเล่น LMQL แบบโต้ตอบ [>ไซต์]
- - "การแจ้งคือการเขียนโปรแกรม: ภาษาแบบสอบถามสำหรับโมเดลภาษาขนาดใหญ่" 12-12-2565. [>กระดาษ]
- ? {{guidance}} - ภาษาสำหรับควบคุมโมเดลภาษาขนาดใหญ่ [>รหัส]
- ? เค้าร่าง ~ - ภาษาสำหรับการสร้างข้อความแนะนำ [>รหัส]
- ? DSPy - อินเทอร์เฟซทางโปรแกรมสำหรับ LLM [>รหัส]
- ? llm-reasoners – ห้องสมุดสำหรับการให้เหตุผลแบบจำลองภาษาขนาดใหญ่ขั้นสูง [>รหัส]
- ? ThinkGPT - เฟรมเวิร์กและบล็อคการสร้างสำหรับเวิร์กโฟลว์แบบลูกโซ่แห่งความคิด [>รหัส]
- ? LangChain - ไลบรารี Python สำหรับสร้างเครือข่าย LLM และตัวแทน [>รหัส]
- ? PromptBench - ไลบรารีแบบรวมสำหรับการประเมิน LLMS รวมถึงประสิทธิผลของ CoT prompts [>รหัส]
- SymbolicAI - ไลบรารีสำหรับการเขียนโปรแกรมเชิงอนุพันธ์ด้วย LLM [>รหัส]
แหล่งข้อมูลอื่นๆ
เนื้อหาที่ยอดเยี่ยมและมีประโยชน์มากขึ้น
- แบบสำรวจตัวแทน LLM อัตโนมัติ (อัปเดตอย่างต่อเนื่อง) [>ไซต์]
- LLM Dashboard - สำรวจประสิทธิภาพการใช้เหตุผลเฉพาะงานของ LLM แบบเปิด [>แอป]
- คู่มือวิศวกรรมพร้อมท์ ที่จัดทำโดย DAIR [>ไซต์]
- ATLAS - หลักการและเกณฑ์มาตรฐานสำหรับการแจ้งอย่างเป็นระบบ [>รหัส]
- คู่มือพร้อมท์พร้อมท์ ที่จัดทำโดย Logikon [>ไซต์]
- Arguing with Arguments – ผลงานล่าสุดและยอดเยี่ยมโดย H. Siegel อภิปรายว่าการประเมินข้อโต้แย้งหมายความว่าอย่างไร [>กระดาษ]