ดาวน์โหลด Reading_groups - ดาวน์โหลดซอร์สโค้ด Reading

Reading_groups

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ทรัพยากรสำหรับหัวข้อร้อนที่เกี่ยวข้องกับรูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อนขนาดใหญ่

พลังของการคำนวณ : หลักฐานจำนวนมากแสดงให้เห็นว่าความก้าวหน้าในการเรียนรู้ของเครื่องจักรส่วนใหญ่เป็นแรงผลักดันจากการคำนวณไม่ใช่การวิจัยโปรดดูที่ "บทเรียนที่ขมขื่น" และมักจะเกิดขึ้นและปรากฏการณ์การทำให้เป็นเนื้อเดียวกัน การศึกษาแสดงให้เห็นว่าการใช้การคำนวณปัญญาประดิษฐ์เป็นสองเท่าในทุก ๆ 3.4 เดือนในขณะที่การปรับปรุงประสิทธิภาพเพียงสองเท่าทุก ๆ 16 เดือน ในหมู่พวกเขาปริมาณการคำนวณส่วนใหญ่ขับเคลื่อนด้วยกำลังการคำนวณในขณะที่ประสิทธิภาพจะถูกขับเคลื่อนโดยการวิจัย ซึ่งหมายความว่าการเติบโตของคอมพิวเตอร์มีความก้าวหน้าในอดีตในการเรียนรู้ของเครื่องจักรและฟิลด์ย่อย สิ่งนี้ได้รับการพิสูจน์เพิ่มเติมจากการเกิดขึ้นของ GPT-4 อย่างไรก็ตามเรื่องนี้เรายังต้องให้ความสนใจว่าจะมีสถาปัตยกรรมที่ล้มล้างมากขึ้นในอนาคตเช่น S4 หรือไม่ ฮอตสปอตการวิจัย NLP ปัจจุบันส่วนใหญ่ขึ้นอยู่กับ LLM ขั้นสูง (~ 100b $ 10^{23} $ รองเท้าแตะ) โดยเฉพาะอย่างยิ่ง chatgpt ใช้การคำนวณก่อนการฝึกอบรมน้อยกว่า (4.9+60 petaflops/s-days เทียบกับ 3640 petaflops/s-days) และข้อเสนอแนะของมนุษย์ ($ 500k, 20k ชั่วโมง, 13+33+31k ข้อมูลเมื่อเทียบกับ GPT- $ 12,000k ของ 3 ของมันเปิดตัวความสามารถในการเจรจา GPT Big Model และกลายเป็นที่นิยม ดังนั้นห้องสมุดนี้จะติดตามและจำแนกบทความที่เกี่ยวข้องกับรูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อนขนาดใหญ่ LLM ซึ่งช่วยให้เราสามารถเข้าใจชายแดนและดูทิศทางได้อย่างชัดเจน แน่นอนว่านอกเหนือจาก [มูลนิธิเทคโนโลยีการคำนวณขนาดใหญ่] ยังมีแง่มุมอื่น ๆ : [การพัฒนาเทคโนโลยีขนาดใหญ่], [การปรับปรุงคุณภาพข้อมูลขนาดใหญ่], [นวัตกรรมเปิดสภาพแวดล้อมทางนิเวศวิทยานวัตกรรม], [การทำงานร่วมกันของทีมปิด], [ความสามารถทางวิศวกรรมที่แข็งแกร่ง ] ฯลฯ

สำหรับเอกสารหัวข้อ LLM เพิ่มเติมโปรดดูที่นี่และที่นี่

เอกสาร ( หมวดหมู่หยาบ )

การฝึกอบรมแบบจำลองการทดสอบและการเพิ่มประสิทธิภาพ
แอปพลิเคชันและ LLM+
การวิเคราะห์หลัก
การปรับปรุงเทคโนโลยี
การสำรวจและชุดข้อมูล

ทรัพยากร

หลักสูตร LLM
ภาพสำคัญ
การสาธิต LLM
บล็อกที่สำคัญและบทความที่เลือกด้วยตนเอง
การฝึกอบรมการใช้เหตุผลเครื่องมือแอปพลิเคชัน (ไม่ได้รวบรวม)

การฝึกอบรมแบบจำลองขนาดใหญ่และการเพิ่มประสิทธิภาพ

【การทดสอบเกี่ยวกับ GPT-4, ข้อ จำกัด 】ประกายไฟของหน่วยสืบราชการลับทั่วไปประดิษฐ์: การทดลองในช่วงต้นด้วย GPT-4

การ์ดรุ่น
วิดีโอ

【เอกสารแนะนำรวมถึง SFT, PPO ฯลฯ หนึ่งในบทความที่สำคัญที่สุด】แบบจำลองภาษาการฝึกอบรมเพื่อทำตามคำแนะนำกับข้อเสนอแนะของมนุษย์

【การกำกับดูแลที่ปรับขนาดได้: มนุษย์จะปรับปรุงแบบจำลองของพวกเขาต่อไปได้อย่างไรหลังจากโมเดลของพวกเขาเกินงานของพวกเขาเองได้อย่างไร? 】การวัดความคืบหน้าในการกำกับดูแลที่ปรับขนาดได้สำหรับแบบจำลองภาษาขนาดใหญ่

แบบจำลองการวิจารณ์ตนเองเพื่อช่วยเหลือผู้ประเมินของมนุษย์
คำจำกัดความ: ความสามารถในการให้การกำกับดูแลที่เชื่อถือได้กับโมเดลในรูปแบบของฉลากสัญญาณรางวัลหรือคำวิจารณ์ที่จะยังคงมีประสิทธิภาพหลังจากแบบจำลองเริ่มบรรลุประสิทธิภาพระดับมนุษย์ที่หลากหลาย
เทคโนโลยีการกำกับดูแลที่ปรับขนาดได้สามารถปรับปรุงความสามารถและการจัดแนวของแบบจำลอง (เช่นใช้และบรรลุเป้าหมายในวิธีที่มนุษย์คาดหวัง)
หากเราสามารถค้นหากระบวนทัศน์การเรียนรู้ที่อยู่ภายใต้รูปแบบที่มีอยู่ (ระดับเหนือระดับที่ไม่ใช่ผู้เชี่ยวชาญภายใต้ผู้เชี่ยวชาญ) ที่สามารถปรับปรุงความถูกต้องของคำตอบของโมเดลได้เราจะได้รับความเข้าใจที่ดีขึ้นเกี่ยวกับแบบจำลองโดยไม่ต้องพึ่งพาผู้เชี่ยวชาญ ระบบผู้เชี่ยวชาญ
ความคิดมุมมองอีกประการหนึ่งคือการกระตุ้นแบบจำลองโดยใช้คำแนะนำและกลยุทธ์หลายอย่างและยอมรับเฉพาะคำตอบที่กำหนดโดยแบบจำลองบนพื้นฐานที่สอดคล้องและสมเหตุสมผลของหลักฐาน แต่เทคโนโลยีจากมุมนี้อาจไม่สามารถปรับขนาดได้เพียงพอ แน่นอนเทคโนโลยีใด ๆ ที่สามารถแก้ปัญหาความท้าทายดังกล่าวด้วยความน่าเชื่อถือสูงอาจเป็นตัวแทนของความก้าวหน้าที่สำคัญในการควบคุมที่ปรับขนาดได้
โซลูชั่นที่มีอยู่: ให้แบบจำลองที่มีอยู่ช่วยมนุษย์ในการได้รับความรู้เพื่อให้มนุษย์สามารถสร้างการกำกับดูแลที่มีคุณภาพสูง

【คำจำกัดความของการจัดตำแหน่งที่ผลิตโดย DeepMind 】การจัดตำแหน่งของตัวแทนภาษา

ผู้ช่วยภาษาทั่วไปเป็นห้องปฏิบัติการสำหรับการจัดตำแหน่ง

[กระดาษย้อนยุคแบบจำลองที่ค้นหาโดยใช้ CCA+] การปรับปรุงแบบจำลองภาษาโดยการดึงโทเค็นจากล้านล้าน

แบบจำลองภาษาที่ปรับแต่งจากการตั้งค่าของมนุษย์

การฝึกอบรมผู้ช่วยที่เป็นประโยชน์และไม่เป็นอันตรายด้วยการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์

【รุ่นใหญ่ในภาษาจีนและภาษาอังกฤษเกิน GPT-3 】 GLM-130B: แบบเปิดสองภาษาแบบเปิด

【การเพิ่มประสิทธิภาพเป้าหมายก่อนการฝึกอบรม】 UL2: การรวมกระบวนทัศน์การเรียนรู้ภาษา

benchmarks ใหม่ของการจัดตำแหน่งห้องสมุดแบบจำลองและวิธีการใหม่】คือการเรียนรู้การเสริมแรง (ไม่ใช่) สำหรับการประมวลผลภาษาธรรมชาติหรือไม่: การวัดประสิทธิภาพพื้นฐานและการสร้างบล็อกสำหรับการเพิ่มประสิทธิภาพนโยบายภาษาธรรมชาติ

【 MLM โดยไม่มีแท็ก [MASK] ผ่านเทคโนโลยี】การขาดการเป็นตัวแทนในการสร้างแบบจำลองภาษาที่สวมหน้ากาก

text text to Image Training ช่วยลดความต้องการของคำศัพท์และต่อต้านการโจมตีบางอย่าง】การสร้างแบบจำลองภาษาด้วยพิกเซล

Lexmae: การเตรียมการพจนานุกรมพจนานุกรม

Incoder: แบบจำลองการกำเนิดสำหรับการแทรกซึมของรหัสและการสังเคราะห์

[ค้นหาภาพที่เกี่ยวข้องกับข้อความสำหรับรูปแบบภาษาก่อนการฝึกอบรม] การสร้างแบบจำลองภาษาที่มีการมองเห็นด้วยสายตา

รูปแบบภาษาที่ไม่ใช้โมโนโทนิก

【การเปรียบเทียบและการปรับแต่งข้อเสนอแนะเชิงลบผ่านการออกแบบแบบ propt 】โซ่ของการปรับรูปแบบของรูปแบบภาษากับข้อเสนอแนะ

บทความที่เกี่ยวข้อง: ภูมิปัญญาของการเข้าใจถึงปัญหาย้อนหลังทำให้โมเดลภาษาดีขึ้นผู้ติดตามการเรียนการสอน

【โมเดลสแปร์โรว์】การปรับปรุงการจัดตำแหน่งตัวแทนการสนทนาผ่านการตัดสินของมนุษย์เป้าหมาย

[ใช้พารามิเตอร์โมเดลขนาดเล็กเพื่อเร่งกระบวนการฝึกอบรมของแบบจำลองขนาดใหญ่ (ไม่เริ่มต้นจากศูนย์)] การเรียนรู้ที่จะเติบโตแบบจำลองที่ได้รับการฝึกฝนสำหรับการฝึกอบรมหม้อแปลงที่มีประสิทธิภาพ

[โมเดลความรู้แบบกึ่งพารามิเตอร์ MOE สำหรับแหล่งความรู้หลายแหล่ง] ความรู้ในบริบท: ไปสู่แบบจำลองภาษากึ่งพารามิเตอร์ที่มีความรู้

【วิธีการผสานสำหรับการรวมโมเดลที่ผ่านการฝึกอบรมหลายแบบในชุดข้อมูลที่แตกต่าง

[เป็นแรงบันดาลใจอย่างมากที่กลไกการค้นหาแทนที่สถาปัตยกรรมทั่วไปของ FFN ในหม้อแปลง (เวลา× 2.54) เพื่อแยกความรู้ที่เก็บไว้ในพารามิเตอร์แบบจำลอง] โมเดลภาษาพร้อมปลั๊กอินความรู้

【สร้างข้อมูลการปรับแต่งคำสั่งโดยอัตโนมัติสำหรับการฝึกอบรม GPT-3 】การสอนด้วยตนเอง: การจัดรูปแบบภาษาให้สอดคล้องกับคำแนะนำที่สร้างขึ้นด้วยตนเอง

【ข้อมูลคล้ายกับ Yizhong Wang ที่สร้างคำสั่งโดยอัตโนมัติมุ่งเป้าไปที่คำแนะนำ t0 】คำแนะนำที่ผิดธรรมชาติ: การปรับโมเดลภาษาด้วย (เกือบ) ไม่มีแรงงานมนุษย์
การตัดสินการยอมรับแบบจำลองภาษานั้นไม่ได้แข็งแกร่งต่อบริบทเสมอไป
Super-NaturalInstructions: การวางนัยทั่วไปผ่านคำแนะนำที่เปิดเผยเกี่ยวกับงาน NLP 1600+
(flan-t5-cot) 【การปรับแต่ง COT 】แบบจำลองภาษาที่ใช้คำสั่งการปรับขนาด

- ภาพ

ไปสู่แบบจำลองภาษาที่สวมหน้ากากตามเงื่อนไข

【การปรับเทียบการตรวจสอบอิสระที่สร้างขึ้นอย่างไม่สมบูรณ์แบบซ้ำ ๆ บทความติดตามผลของ Sean Weleck 】สร้างลำดับโดยการเรียนรู้ที่จะแก้ไขตนเอง

การทำนาย: คำติชม AI จะแทนที่คำติชมของผู้ใช้มนุษย์สำหรับการอัปเดตแบบจำลองในไม่ช้า
ไปสู่การส่งเสริม chatbot แบบเปิดโดเมนด้วยความคิดเห็นของมนุษย์
แนวคิดที่คล้ายกัน 1. รัฐธรรมนูญ AI: ความไม่เป็นอันตรายจากข้อเสนอแนะ AI
แนวคิดที่คล้ายกัน 2. การค้นพบพฤติกรรมแบบจำลองภาษาด้วยการประเมินแบบจำลองที่เขียนขึ้น
แอปพลิเคชัน: [openai] สรุปหนังสือด้วยคำติชมของมนุษย์ซ้ำ ๆ

[การเรียนรู้อย่างต่อเนื่อง: เพิ่ม propt สำหรับงานใหม่และ propt ของงานก่อนหน้าและโมเดลขนาดใหญ่ยังคงไม่เปลี่ยนแปลง] การแจ้งเตือนแบบก้าวหน้า: การเรียนรู้อย่างต่อเนื่องสำหรับแบบจำลองภาษาโดยไม่ลืม

[EMNLP 2022, การอัปเดตอย่างต่อเนื่องของโมเดล] memprompt: การแก้ไขพรอมต์หน่วยความจำช่วยด้วยความคิดเห็นของผู้ใช้

【สถาปัตยกรรมระบบประสาทใหม่ (Folnet) ซึ่งมีอคติการเหนี่ยวนำตรรกะลำดับแรก】การเรียนรู้ภาษาการเรียนรู้ด้วยอคติเชิงตรรกะ

GANLM: การฝึกอบรมการเข้ารหัสล่วงหน้าด้วยการเลือกปฏิบัติเสริม

【แบบจำลองภาษาที่ใช้ก่อนหน้านี้ตามแบบจำลองพื้นที่ของรัฐเกินกว่าเบิร์ต】การเตรียมการโดยไม่สนใจ

[พิจารณาข้อเสนอแนะของมนุษย์ในระหว่างการฝึกอบรมก่อน] แบบจำลองภาษาที่มีความชอบของมนุษย์

[รุ่นโอเพนซอร์ส Llama ของ Meta, 7b-65b, รถไฟรุ่นเล็กที่มีป้ายกำกับมากกว่าปกติ, บรรลุประสิทธิภาพที่ดีที่สุดภายใต้งบประมาณการอนุมานที่หลากหลาย] llama: แบบเปิดและมีประสิทธิภาพ

[การสอนแบบจำลองภาษาขนาดใหญ่เพื่อการลบตัวเองและอธิบายรหัสที่สร้างขึ้นผ่านตัวอย่างจำนวนน้อย แต่พวกเขาถูกนำมาใช้เช่นนี้ในขณะนี้] การสอนแบบจำลองภาษาขนาดใหญ่เพื่อการลบตัวเอง

ชุดของเอกสารและเครื่องมือที่เผยแพร่เกี่ยวกับความสามารถในการแก้ไขตนเองของโมเดลภาษาขนาดใหญ่, Babyagi, Auto-GPT
แนวคิดที่คล้ายกัน: 0. [โมเดลบันทึกและสะท้อนถึงความผิดพลาดที่คุณทำ] การสะท้อนกลับ: ตัวแทนอิสระที่มีหน่วยความจำแบบไดนามิกและการสะท้อนตนเอง
แนวคิดที่คล้ายกัน: 1. [แบบจำลองซ้ำผ่านการสื่อสารและการแก้ไขซ้ำของเอาต์พุตของกันและกัน] Dera: การเพิ่มความสมบูรณ์แบบของแบบจำลองภาษาขนาดใหญ่ด้วยตัวแทนการแก้ไขบทสนทนาที่เปิดใช้งาน

อูฐสามารถไปได้ไกลแค่ไหน?

ลิมา: น้อยกว่าสำหรับการจัดตำแหน่งมากขึ้น

tree Tree-of-Thout

แอปพลิเคชันและ LLM+

【วิธีการให้เหตุผลหลายขั้นตอนสำหรับการใช้ ICL นั้นเป็นแรงบันดาลใจอย่างมาก】ตอบสนอง: การทำงานร่วมกันการใช้เหตุผลและทำหน้าที่ในรูปแบบภาษา

【การใช้ LLM เพียงอย่างเดียวนั้นไม่เพียงพอที่จะสร้างแอพที่ทรงพลังอย่างแท้จริงและพลังที่แท้จริงจะปรากฏขึ้นเมื่อ LLM รวมกับแหล่งคอมพิวเตอร์หรือความรู้อื่น ๆ ]
【เครื่องมือ】 Langchain - การสร้างแอพพลิเคชั่นที่มี LLM ผ่านการรวมกัน
【การสำรวจแบบจำลองภาษาที่เพิ่มขึ้น: การสำรวจ
เครื่องเครื่องมือ
แนวคิดที่คล้ายกัน 0. Talm: โมเดลภาษาที่เพิ่มขึ้นเครื่องมือ
แนวคิดที่คล้ายกัน 1. สาธิต-ค้นหา-การคาดการณ์: การเขียนแบบจำลองการดึงและภาษาสำหรับ NLP ที่ใช้ความรู้มาก
ความคิดที่คล้ายกัน 2. Lambada: การผูกมัดแบบย้อนหลังเพื่อการให้เหตุผลอัตโนมัติในภาษาธรรมชาติ
แนวคิดที่คล้ายกัน 3. [เลือกและให้เหตุผล] การเลือกการเลือก: ใช้ประโยชน์จากแบบจำลองภาษาขนาดใหญ่สำหรับการใช้เหตุผลเชิงตรรกะที่ตีความได้
แนวคิดที่คล้ายกัน 4. แบบจำลองภาษาเป็นโมเดลตัวแทน
ความคิดที่คล้ายกัน 5. การแจ้งเตือนคือการเขียนโปรแกรม: ภาษาคิวรีสำหรับโมเดลภาษาขนาดใหญ่
แนวคิดที่คล้ายกัน 6. 【 Neurips 22 '】แบบจำลองภาษา
แนวคิดที่คล้ายกัน 7. ศิลปะ: การใช้เหตุผลหลายขั้นตอนอัตโนมัติและการใช้เครื่องมือสำหรับรุ่นภาษาขนาดใหญ่
ตัวแทนกำเนิด: simulacra แบบโต้ตอบของพฤติกรรมมนุษย์

【 COT สร้างรหัสโปรแกรมโดยตรงจากนั้นให้ Python Interpreter ดำเนินการ】โปรแกรมของความคิดที่แจ้งเตือน: disentangling การคำนวณจากการให้เหตุผลสำหรับการใช้เหตุผลเชิงตัวเลข

บทความที่เกี่ยวข้อง: [emnlp 22 '] รูปแบบภาษาของรหัสเป็นผู้เรียนแบบไม่กี่คน
【 Heng Ji Group 】 code4 struct: การสร้างรหัสสำหรับการทำนายโครงสร้างไม่กี่นัดจาก PAL ภาษาธรรมชาติ: โมเดลภาษาโดยโปรแกรมช่วย
【 Qing Lyu, Chris Callison-Burch Group 】การใช้เหตุผลที่ชาญฉลาด

[โมเดลขนาดใหญ่สร้างบริบทหลักฐานโดยตรง] สร้างแทนที่จะดึง: โมเดลภาษาขนาดใหญ่เป็นเครื่องกำเนิดบริบทที่แข็งแกร่ง

【รูปแบบการเขียนที่มีการดำเนินการเฉพาะ 4 การดำเนินการ】เพียร์: รูปแบบภาษาที่ทำงานร่วมกัน

【การรวม Python, SQL Executors และรุ่นใหญ่】โมเดลภาษาที่มีผลผูกพันในภาษาสัญลักษณ์

[ดึงรหัสการสร้างเอกสาร] DocPrompting: การสร้างรหัสโดยการดึงเอกสาร

[จะมีบทความมากมายในการต่อสายดิน+LLM ในซีรี่ส์ถัดไป] LLM-Planner: การวางแผนที่มีพื้นฐานไม่กี่นัดสำหรับตัวแทนที่เป็นตัวเป็นตนด้วยรูปแบบภาษาขนาดใหญ่

ทำเท่าที่จะทำได้ไม่ได้พูด: ภาษาที่มีพื้นฐานในการจ่ายหุ่นยนต์
https://say-can.github.io/

【การสร้างทัศนะด้วยตนเอง (ตรวจสอบโดยใช้ข้อมูลการฝึกอบรม Python) แบบจำลองภาษาสามารถสอนตัวเองให้โปรแกรมได้ดีขึ้น

บทความที่เกี่ยวข้อง: เชี่ยวชาญรูปแบบภาษาขนาดเล็กต่อการใช้เหตุผลหลายขั้นตอน
STAR: การใช้เหตุผลในการใช้เหตุผลด้วยการใช้เหตุผลจาก Neurips 22 (สร้างข้อมูล COT สำหรับการปรับแต่งแบบจำลอง) ทำให้เกิดชุดของบทความ COT ที่ตามมาสอนโมเดลขนาดเล็กที่ตามมา
ความคิดที่คล้ายกัน [การกลั่นความรู้] การสอนแบบจำลองภาษาขนาดเล็กเพื่อเหตุผลและการเรียนรู้โดยการกลั่นบริบท
ความคิดที่คล้ายกัน Kaist และ Xiang Ren Groups ([การปรับแต่งเหตุผลของ Cot (ศาสตราจารย์)] Pinto: การใช้เหตุผลภาษาที่ซื่อสัตย์โดยใช้เหตุผลที่สร้างขึ้นมาอย่างรวดเร็ว ฯลฯ ) และแบบจำลองภาษาขนาดใหญ่
ETH [COT Data Trains การสลายตัวของปัญหาการสลายตัวและแบบจำลองการแก้ปัญหาแยกกัน] กลั่นความสามารถในการใช้เหตุผลหลายขั้นตอนของแบบจำลองภาษาขนาดใหญ่เป็นแบบจำลองขนาดเล็กผ่านการสลายตัวทางความหมาย

【ให้แบบจำลองขนาดเล็กเรียนรู้ความสามารถของ COT 】การกลั่นการเรียนรู้ในบริบท: การถ่ายโอนความสามารถในการเรียนรู้ไม่กี่ครั้งของแบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อน

【โมเดลขนาดใหญ่สอนรูปแบบขนาดเล็ก cot 】แบบจำลองภาษาขนาดใหญ่คือการให้เหตุผลครู

[โมเดลขนาดใหญ่สร้างหลักฐาน (การบรรยาย) จากนั้นดำเนินการคำถามและคำตอบในหนังสือตัวอย่างขนาดเล็ก] แบบจำลองภาษาที่มีการท่องจำ

[วิธีการภาษาธรรมชาติของเหตุผลเชิงอุปนัย] แบบจำลองภาษาเป็นเหตุผลเชิงอุปนัย

[GPT-3 ใช้สำหรับคำอธิบายประกอบข้อมูล (เช่นการจำแนกทางอารมณ์)] GPT-3 เป็นคำอธิบายประกอบข้อมูลที่ดีหรือไม่?

【โมเดลสำหรับการเพิ่มข้อมูลตามการฝึกอบรมมัลติทาสกิ้งสำหรับการเพิ่มข้อมูลตัวอย่างที่น้อยลง】 Knowda: แบบจำลองการผสมความรู้แบบ all-in-one สำหรับการเพิ่มข้อมูลใน NLP ที่มีทรัพยากรต่ำ

【งานการวางแผนขั้นตอนไม่สนใจเวลาที่】การวางแผนขั้นตอน neuro-symbolic ด้วยการแจ้งเตือนแบบทั่วไป

[วัตถุประสงค์: สร้างบทความที่ถูกต้องตามข้อเท็จจริงสำหรับการสอบถามโดยการลงดินบนเว็บคลังข้อมูลขนาดใหญ่

【การรวมผลลัพธ์ของตัวจำลองฟิสิกส์ภายนอกในบริบท】สายตาของจิตใจ: แบบจำลองภาษาที่มีเหตุผลการให้เหตุผลผ่านการจำลอง

[เรียกคืน COT ที่ได้รับการปรับปรุงเพื่อทำภารกิจที่ต้องใช้ความรู้] การดึงข้อมูล interleave ด้วยการใช้เหตุผลที่ใช้ความรู้สำหรับคำถามหลายขั้นตอนความรู้ที่ใช้ความรู้มาก

【เปรียบเทียบความรู้ที่มีศักยภาพ (ไบนารี) ในรูปแบบภาษาการรับรู้ที่ไม่ได้รับการยอมรับ】การค้นพบความรู้แฝงในรูปแบบภาษาโดยไม่มีการกำกับดูแล

[Percy Liang Group, เครื่องมือค้นหาที่เชื่อถือได้มีเพียง 51.5% ของประโยคที่สร้างขึ้นได้รับการสนับสนุนอย่างเต็มที่จากการอ้างอิง] การประเมินความสามารถในการตรวจสอบในเครื่องมือค้นหาทั่วไป

การเปิดใช้งานแบบก้าวหน้าช่วยปรับปรุงการใช้เหตุผลในรูปแบบภาษาขนาดใหญ่

การจัดตำแหน่งตนเองของแบบจำลองภาษาที่ขับเคลื่อนด้วยหลักการตั้งแต่เริ่มต้นด้วยการกำกับดูแลของมนุษย์น้อยที่สุด

ตัดสิน LLM-as-a-Judge กับ MT-Bench และ Chatbot Arena

การวิเคราะห์หลัก

[ในความคิดของฉันมันเป็นหนึ่งในบทความที่สำคัญที่สุด การฝึกอบรมและความกว้างและความลึกของรายละเอียดสถาปัตยกรรมเช่นความกว้างและความลึก

[หนึ่งในบทความที่สำคัญที่สุดอื่น ๆ คือ Chinchilla ภายใต้การคำนวณที่ จำกัด โมเดลที่ดีที่สุดไม่ใช่โมเดลที่ใหญ่ที่สุด แต่เป็นโมเดลขนาดเล็กที่ได้รับการฝึกฝนด้วยข้อมูลเพิ่มเติม (60-70B)] การฝึกอบรมแบบจำลองการคำนวณที่ดีที่สุด

[สถาปัตยกรรมและเป้าหมายการเพิ่มประสิทธิภาพใดที่ช่วยให้ภาพรวมตัวอย่างเป็นศูนย์] สถาปัตยกรรมแบบจำลองภาษาใดและวัตถุประสงค์การเตรียมการที่ดีที่สุดสำหรับการวางนัยทั่วไป

【 grokking กระบวนการเรียนรู้กระบวนการเรียนรู้“ Epiphany”-> การก่อตัวของวงจร-> การทำความสะอาด】มาตรการความคืบหน้าสำหรับการ grokking ผ่านการตีความกลไก

[ตรวจสอบลักษณะของโมเดลการค้นหาและพบว่าทั้งสองมีเหตุผลที่ จำกัด ] สามารถตอบกลับแบบจำลองภาษาที่มีเหตุผลได้หรือไม่?

แนวคิดของการค้นหา + LLM คือทิศทางต่อไป แต่ไม่ใช่คำตอบเดียว
[การวิเคราะห์และการวิจัยเกี่ยวกับเวลาที่จะใช้ความรู้ภายนอกนั่นคือการสลับระหว่างความรู้ภายนอกและความรู้พารามิเตอร์] แบบจำลองภาษาขนาดใหญ่ที่มีหน่วยความจำในการทำงานที่ควบคุมได้
ทบทวนการค้นหา: ทำให้ผู้เชี่ยวชาญโดเมนออกจาก dilettants
การตอบคำถามที่ระบุ: การประเมินผลและการสร้างแบบจำลองสำหรับแบบจำลองภาษาขนาดใหญ่ที่นำมาประกอบ

[กรอบการประเมินการปฏิสัมพันธ์ภาษาของมนุษย์-เอ] การประเมินการปฏิสัมพันธ์แบบจำลองภาษามนุษย์

บทความที่คล้ายกันการวัดยูทิลิตี้ของมนุษย์ของเหตุผลข้อความอิสระในการทำงานร่วมกันของมนุษย์กับ AI

อัลกอริทึมการเรียนรู้อะไรคือการเรียนรู้ในบริบท?

[ใช้ ICL เพื่อเรียนรู้การทำนายการกระทำหลังจากการเรียนรู้การเสริมแรงฉลาดจริง ๆ ] การเรียนรู้การปฏิรูปในบริบทด้วยอัลกอริทึมการกลั่น

【การแก้ไขแบบจำลองนี่เป็นหัวข้อร้อน】หน่วยความจำการแก้ไขมวลชนในหม้อแปลง

[ความอ่อนไหวของโมเดลต่อบริบทที่ไม่เกี่ยวข้องเพิ่มข้อมูลที่ไม่เกี่ยวข้องกับตัวอย่างในการแจ้งเตือนและเพิ่มคำแนะนำที่ไม่สนใจบริบทที่ไม่เกี่ยวข้องบางส่วน] โมเดลภาษาขนาดใหญ่สามารถเบี่ยงเบนความสนใจได้ง่ายโดยบริบทที่ไม่เกี่ยวข้อง

cot Zero-shot จะแสดงอคติและความเป็นพิษภายใต้ปัญหาที่ละเอียดอ่อน】ในความคิดที่สองอย่าคิดทีละขั้นตอน!

cot ของโมเดลขนาดใหญ่มีความสามารถข้ามภาษา】โมเดลภาษาเป็นเหตุผลหลายภาษาที่หลากหลาย

[ยิ่งระดับความสับสนลดลงของลำดับที่แตกต่างกันเท่าใดประสิทธิภาพที่ดีกว่า] การแจ้งเตือนการส่งเสียงในแบบจำลองภาษาผ่านการประมาณความงุนงง

[ภารกิจการแก้ไขความหมายของไบนารีของโมเดลขนาดใหญ่ข้อเสนอแนะนี้เป็นเรื่องยากและไม่มีปรากฏการณ์การปรับขนาด] แบบจำลองภาษาขนาดใหญ่ไม่ใช่นักสื่อสารที่ไม่ได้เป็นศูนย์ (https://github.com/google/big-bench/tree/main/bigbench/ Benchmark_tasks/ Implicity)

【การแจ้งเตือนตามความซับซ้อนสำหรับการใช้เหตุผลหลายขั้นตอน

วัตถุประสงค์: การปรับปรุงยูทิลิตี้ของ COT นั้นเกี่ยวข้องอย่างใกล้ชิดกับการวิเคราะห์ยูทิลิตี้ COT
[เลือกตัวอย่างเดียวหลังการสร้างจากนั้นเลือกชุดค่าผสม] การเลือกคำอธิบายโดยใช้ข้อมูลที่ไม่มีป้ายกำกับสำหรับการเรียนรู้ในบริบท
【โซ่อัตโนมัติของความคิดที่กระตุ้นการกระตุ้นในรูปแบบภาษาขนาดใหญ่
[ทำการปรับระดับรองเพื่อคำอธิบายของการสร้าง COT ใช้โมดูลโรงกลั่น

สิ่งที่สำคัญในการตัดแต่งกิ่งที่มีโครงสร้างของแบบจำลองภาษากำเนิด?

[ชุดข้อมูล Ambibench, ความคลุมเครือของงาน: โมเดลการปรับขนาด RLHF ทำงานได้ดีที่สุดในการทำงานที่ไม่น่าเชื่อ การปรับแต่งมีประโยชน์มากกว่าการกระตุ้นไม่กี่ครั้ง】ความคลุมเครือของงานในมนุษย์และโมเดลภาษา

【การทดสอบ GPT-3 รวมถึงหน่วยความจำการสอบเทียบอคติ ฯลฯ 】การแจ้งเตือน GPT-3 ให้ความน่าเชื่อถือ

[การศึกษา OSU ส่วนใดของ COT นั้นมีประสิทธิภาพสำหรับการปฏิบัติงาน] ต่อการทำความเข้าใจการกระตุ้นด้วยความคิดของห่วงโซ่: การศึกษาเชิงประจักษ์เกี่ยวกับสิ่งที่สำคัญ

ความคิดที่คล้ายกัน 1 คำอธิบายเสริมสำหรับการเรียนรู้ในบริบทที่มีประสิทธิภาพ (UT Austin, Xi Ye, Greg Durrett)
ข้อความและรูปแบบความคิดที่คล้ายกันที่คล้ายกัน: สำหรับห่วงโซ่ความคิดที่มีประสิทธิภาพใช้เวลาสองถึงแทงโก้

[การวิจัยเกี่ยวกับรูปแบบข้ามภาษาของพรอมต์แบบไม่ต่อเนื่อง] การสกัดข้อมูลแบบไม่ต่อเนื่องสามารถแจ้งให้ทั่วไปทราบในแบบจำลองภาษาได้หรือไม่?

【อัตราหน่วยความจำคือความสัมพันธ์เชิงเส้นลอการิทึมกับขนาดของรุ่นความยาวคำนำหน้าและอัตราการทำซ้ำในการฝึกอบรม】การท่องจำเชิงปริมาณในแบบจำลองภาษาประสาท

【มันเป็นแรงบันดาลใจอย่างมากสลายปัญหาเป็นคำถามย่อยผ่านการทำซ้ำ GPT และตอบว่าการวัดและการ จำกัด ช่องว่างการเรียงความในรูปแบบภาษา

[ไม่ว่าการวิจัยจะมีประสิทธิภาพสำหรับการอ่านในคำตอบทีละขั้นตอนหรือไม่ตัวอย่างที่เป็นศูนย์และทรัพยากรต่ำนั้นมีประสิทธิภาพ] เมื่อใดที่การสลายตัวช่วยในการอ่านเครื่อง?
ความคิดที่คล้ายกันการแจ้งเตือนน้อยที่สุดช่วยให้การใช้เหตุผลที่ซับซ้อนในรูปแบบภาษาขนาดใหญ่
ความคิดที่คล้ายกันกระตุ้นให้เกิดการย่อยสลายคำถามที่ซับซ้อน

[การทดสอบแบบอะนาล็อกของ GPT-3 คล้ายกับคำถามข่าวกรองของข้าราชการพลเรือน] การใช้เหตุผลแบบอะนาล็อกที่เกิดขึ้นในแบบจำลองภาษาขนาดใหญ่

【การฝึกอบรมข้อความสั้นการทดสอบข้อความยาวการประเมินความยาวตัวแปรแบบจำลองความยาวการปรับตัว】หม้อแปลงความยาวที่มีความยาว

[เมื่อไม่เชื่อถือแบบจำลองภาษา: การตรวจสอบประสิทธิภาพและข้อ จำกัด ของความทรงจำแบบพารามิเตอร์และไม่ใช่พารามิเตอร์

【 ICL เป็นอีกรูปแบบหนึ่งของการอัปเดตการไล่ระดับสี】ทำไม GPT สามารถเรียนรู้ในบริบทได้หรือไม่?

บทความที่เกี่ยวข้อง: Transformers เรียนรู้ในบริบทโดย Descent การไล่ระดับสี

GPT-3 เป็นโรคจิตหรือไม่?

[การวิจัยเกี่ยวกับกระบวนการฝึกอบรมแบบจำลอง OPT ในขนาดที่แตกต่างกันและพบว่าความสับสนเป็นตัวบ่งชี้ของ ICL] วิถีการฝึกอบรมของแบบจำลองภาษาในระดับสเกล

[EMNLP 2022, คลังภาษาอังกฤษบริสุทธิ์ที่ผ่านการฝึกอบรมมาก่อนมีภาษาอื่น ๆ และความสามารถข้ามภาษาของโมเดลอาจมาจากการรั่วไหลของข้อมูล] การปนเปื้อนภาษาช่วยอธิบายความสามารถข้ามภาษาของแบบจำลองภาษาอังกฤษ

[การเอาชนะนักบวช semantic และการใช้ข้อมูลใน ProPT เป็นความสามารถในการเพิ่มขึ้น] แบบจำลองภาษาขนาดใหญ่ทำในบริบทการเรียนรู้ที่แตกต่างกัน

【 EMNLP 2022 การค้นพบ】รูปแบบภาษาใดที่จะฝึกอบรมถ้าคุณมีหนึ่งล้าน GPU ชั่วโมง?

การปรับปรุงเทคโนโลยี (เช่นเทคโนโลยีการสร้าง, วิศวกรรมที่รวดเร็ว, ตัวชี้วัด, ความน่าเชื่อถือ ฯลฯ )

[แนะนำเทคโนโลยี CFG ในระหว่างการให้เหตุผลช่วยปรับปรุงความสามารถในการปฏิบัติตามคำสั่งของโมเดลขนาดเล็กอย่างมาก] อยู่ในหัวข้อด้วยคำแนะนำที่ปราศจากตัวจําแนก

【ฝึกอบรมนางแบบ Llama ของคุณเองด้วย GPT-4 ของ OpenAi และฉันสามารถพูดได้ว่าฉันชื่นชมคุณ】การปรับแต่งคำแนะนำด้วย GPT-4

Reflexion: ตัวแทนอิสระที่มีหน่วยความจำแบบไดนามิกและการสะท้อนตนเอง

【การเรียนรู้สไตล์ที่เป็นส่วนตัวเลือกใช้ profts extensible สำหรับโมเดลภาษา

[เร่งการถอดรหัสแบบจำลองขนาดใหญ่โดยใช้ฉันทามติโดยตรงระหว่างรุ่นขนาดเล็กและรุ่นขนาดใหญ่ที่จะใช้หลายครั้งในแต่ละครั้งหลังจากทั้งหมดอินพุตจะช้ามากถ้ามันยาว] เร่งการถอดรหัสแบบจำลองภาษาขนาดใหญ่พร้อมการสุ่มตัวอย่างพิเศษ

[ใช้ Soft Prompt เพื่อลดการลดลงของความสามารถของ ICL ที่เกิดจากการปรับแต่งอย่างละเอียดการปรับระยะแรกการปรับระยะที่สอง] รักษาความสามารถในการเรียนรู้ในบริบทในรูปแบบภาษาขนาดใหญ่ปรับแต่งการปรับแต่งการปรับแต่ง

【งานการแยกวิเคราะห์ความหมายวิธีการเลือกตัวอย่างของ ICL, Codex และ T5 ขนาดใหญ่】การสาธิตที่หลากหลายปรับปรุงการปรับแต่งทั่วไปในบริบท

【วิธีการเพิ่มประสิทธิภาพใหม่สำหรับการสร้างข้อความ】โมเดลการสร้างภาษาที่ปรับแต่งภายใต้ระยะการเปลี่ยนแปลงทั้งหมด

[การประเมินความไม่แน่นอนของการสร้างแบบมีเงื่อนไขโดยใช้การจัดกลุ่มความหมายรวมกับเอาต์พุตการสุ่มตัวอย่างหลายรายการเพื่อประเมินเอนโทรปีของกลุ่ม] ความไม่แน่นอนเชิงความหมาย: ค่าคงที่ภาษาศาสตร์เพื่อการประมาณความไม่แน่นอนในการสร้างภาษาธรรมชาติ

บทความที่เกี่ยวข้อง: 1. แบบจำลองภาษา (ส่วนใหญ่) รู้ว่าพวกเขารู้อะไร
บทความที่เกี่ยวข้อง: 2. รูปแบบการสอนเพื่อแสดงความไม่แน่นอนในคำพูด
บทความที่เกี่ยวข้อง: 3. [การแสดงออกทางภาษามีผลต่อการสอบเทียบและความแม่นยำอย่างไรและวิธีการแสดงออกใดดีที่สุด? 】การนำทางพื้นที่สีเทา: การแสดงออกถึงความมั่นใจและความไม่แน่นอนในรูปแบบภาษา
บทความที่เกี่ยวข้อง: 4. การลดความมั่นใจของตัวแทนการสนทนาผ่านการสอบเทียบภาษาศาสตร์
การวิเคราะห์อภิมานการสอบเทียบ: การสอบเทียบของแบบจำลองขนาดใหญ่จะเปลี่ยนไปเนื่องจากขนาดของแบบจำลองสถาปัตยกรรมของแบบจำลองคำแนะนำที่แตกต่างกันบริบทที่แตกต่างกันและโดเมนงานหรือไม่?
วิธีการสอบเทียบที่ดีที่สุดสำหรับการสร้างบทสนทนาโดเมนแบบเปิดคืออะไร? วิธีปรับปรุงประสิทธิภาพการสอบเทียบของโมเดลการปรับแต่ง RLHF การปรับแต่งการเรียนการสอน?
โมเดลขนาดใหญ่ได้รับการสอบเทียบจริง ๆ เพื่อทำความเข้าใจปัญหาแทนที่จะได้รับการประเมินความน่าเชื่อถือที่ดีผ่านอคติทางสถิติหรือไม่? เป็นเหมือนมนุษย์ที่มีการหลอกลวงรู้ว่าคุณไม่เข้าใจ แต่แกล้งทำเป็นว่าคุณรู้หรือไม่? จะประเมินสิ่งนี้ได้อย่างไร?
หากโมเดลขนาดใหญ่มีการสอบเทียบที่ดีเราจะทำอย่างไรต่อไปเราจะนำไปใช้กับแอปพลิเคชันเช่นการสร้างบทสนทนาได้อย่างไร

Go-tuning: การปรับปรุงความสามารถในการเรียนรู้แบบไม่ยิงของแบบจำลองภาษาขนาดเล็ก

【วิธีการสร้างข้อความที่สร้างแรงบันดาลใจอย่างมากภายใต้ข้อ จำกัด ข้อความฟรี】การสร้างข้อความที่ควบคุมได้พร้อมข้อ จำกัด ด้านภาษา

[เมื่อสร้างการทำนายให้ใช้ความคล้ายคลึงกันเพื่อเลือกวลีแทนโทเค็น softmax] การสร้างแบบจำลองภาษาที่ไม่ใช่พารามิเตอร์

[วิธี ICL สำหรับข้อความยาว] หน้าต่างบริบทแบบขนานปรับปรุงการเรียนรู้ในบริบทของแบบจำลองภาษาขนาดใหญ่

[ตัวอย่างของ Model InstructGPT ที่สร้าง ICL ด้วยตัวเอง] การเตรียมแบบจำลองภาษาขนาดใหญ่สำหรับการเปิดโดเมน QA ด้วยตนเอง

[ICL สามารถป้อนตัวอย่างคำอธิบายประกอบได้มากขึ้นผ่านการจัดกลุ่มและกลไกความสนใจ] การแจ้งเตือนที่มีโครงสร้าง: การปรับขนาดการเรียนรู้ในบริบทเป็น 1,000 ตัวอย่าง

การสอบเทียบโมเมนตัมสำหรับการสร้างข้อความ

【วิธีการเลือกตัวอย่าง ICL สองวิธีการทดลองตาม OPT และ GPTJ 】การดูแลข้อมูลอย่างระมัดระวังทำให้การเรียนรู้ในบริบทมีความเสถียร

【การวิเคราะห์ตัวบ่งชี้การประเมินของ MAUVE (Pundla et al.) 】เกี่ยวกับประโยชน์ของการฝังตัวกลุ่มและสตริงสำหรับการประเมินการสร้างข้อความ

PreftingAgator: การดึงข้อมูลหนาแน่นไม่กี่ครั้งจาก 8 ตัวอย่าง

[สาม Cobblers, Zhuge Liang] ความสม่ำเสมอ

【ใช้ความรู้เป็นข้อมูลอ้างอิงสำหรับ Cobblers 】การคิดใหม่ด้วยการดึง: การอนุมานแบบจำลองภาษาขนาดใหญ่ที่ซื่อสัตย์

[Invert, Input และ Label สร้างคำแนะนำสำหรับเงื่อนไข] เดาคำสั่ง!

【การตรวจสอบตนเองแบบย้อนกลับของ LLM แบบจำลองภาษาขนาดใหญ่เป็นเหตุผลในการตรวจสอบตนเอง

【วิธีการในการค้นหา - สถานการณ์ความปลอดภัยภายใต้กระบวนการสร้างหลักฐาน】 foveate, คุณลักษณะและการหาเหตุผลเข้าข้างตนเอง: ไปสู่ความปลอดภัยและความน่าเชื่อถือ AI

[การประเมินความเชื่อมั่นของชิ้นส่วนการสกัดข้อมูลที่สร้างขึ้นจากข้อความตามการค้นหาลำแสง] การค้นหาลำแสงช่วยปรับปรุงการประมาณความเชื่อมั่นระดับในระดับในการติดฉลากลำดับกำเนิดได้อย่างไร

SPT: การปรับจูนแบบกึ่งพารามิเตอร์สำหรับมัลติทาสก์แจ้งเตือนการเรียนรู้

【การอภิปรายเกี่ยวกับฉลากทองคำสรุปที่แยกออกมา】การสรุปข้อความด้วยความคาดหวังของ Oracle

【วิธีการตรวจจับ Ood ตามระยะทางของดาวอังคาร】การตรวจจับนอกการกระจายและการสร้างแบบเลือกสำหรับแบบจำลองภาษาแบบมีเงื่อนไข

[โมดูลความสนใจรวมพร้อมกันเพื่อทำนายระดับตัวอย่าง] โมเดลชุดแทนที่จะเป็นฟิวชั่นที่รวดเร็ว: วิธีการถ่ายโอนความรู้เฉพาะตัวอย่างสำหรับการปรับแต่ง

【พร้อมท์สำหรับงานหลายงานโดยการสลายตัวและการกลั่นเป็นหนึ่งเดียวกับการปรับจูนแบบมัลติทาสก์

[ตัวบ่งชี้การประเมินผลของข้อความที่สร้างขึ้นทีละขั้นตอนข้อความที่สร้างขึ้นสามารถใช้เป็นหัวข้อที่จะแบ่งปันในครั้งต่อไป] Roscoe: ชุดตัวชี้วัดสำหรับการให้คะแนนการใช้เหตุผลทีละขั้นตอน

[การสอบเทียบลำดับความน่าจะเป็นช่วยปรับปรุงการสร้างภาษาแบบมีเงื่อนไข]

【วิธีการโจมตีข้อความตามการเพิ่มประสิทธิภาพการไล่ระดับสี】 TextGRAD: การประเมินความแข็งแกร่งในการเพิ่มความแข็งแกร่งใน NLP โดยการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วยการไล่ระดับสี

[การสร้างแบบจำลอง GMM การจำแนกประเภทการตัดสินใจของ ICL เพื่อสอบเทียบ] การสอบเทียบต้นแบบสำหรับการเรียนรู้แบบจำลองภาษาไม่กี่แบบ

【ปัญหาการเขียนใหม่และวิธีการรวม ICL ที่ใช้กราฟ】ถามฉันทุกอย่าง: กลยุทธ์ง่ายๆสำหรับการแจ้งรูปแบบภาษา

[ฐานข้อมูลสำหรับการเลือกผู้สมัครที่ดีเป็น ICLs จากกลุ่มตัวอย่างที่ไม่ได้บันทึกไว้] คำอธิบายประกอบที่เลือกทำให้แบบจำลองภาษาดีขึ้นผู้เรียนไม่กี่คน

พรอมต์ BOOSTING: การจำแนกข้อความกล่องดำด้วยบัตรผ่านไปข้างหน้าสิบครั้ง

การโจมตีแบ็คดอร์ที่ได้รับความสนใจจาก Transformers

【ตำแหน่งหน้ากากการเลือกฉลากอัตโนมัติตำแหน่ง】โมเดลภาษาที่ผ่านการฝึกอบรมมาก่อนสามารถเป็นศูนย์ผู้เรียนได้อย่างสมบูรณ์

[บีบอัดความยาวของเวกเตอร์อินพุต FID และจัดลำดับใหม่เมื่อเอาท์พุทไปยังการจัดอันดับเอกสารเอาต์พุต] FID-LIGHT: การสร้างข้อความที่มีประสิทธิภาพและมีประสิทธิภาพและมีประสิทธิภาพ

【คำอธิบายเกี่ยวกับการสร้างโมเดลขนาดใหญ่】ปินโต: การใช้เหตุผลภาษาที่ซื่อสัตย์โดยใช้เหตุผลที่ได้รับแจ้ง

【ค้นหาชุดย่อยของผลกระทบก่อนการฝึกอบรม】 orca: การตีความโมเดลภาษาที่ได้รับแจ้งผ่านหลักฐานที่สนับสนุนสถานที่ในมหาสมุทรแห่งข้อมูลการเตรียมการ

[โครงการพรอมต์มุ่งเป้าไปที่การเรียนการสอนสร้างขั้นตอนแรกและการกรองการเรียงลำดับสองขั้นตอน] แบบจำลองภาษาขนาดใหญ่เป็นวิศวกรที่มีระดับมนุษย์

ความรู้ที่ไม่ได้รับรู้เพื่อลดความเสี่ยงด้านความเป็นส่วนตัวในรูปแบบภาษา

แบบจำลองการแก้ไขด้วยเลขคณิตงาน

[อย่าป้อนคำแนะนำและตัวอย่างทุกครั้งแปลงเป็นโมดูลที่มีประสิทธิภาพพารามิเตอร์] คำใบ้: การปรับแต่งคำสั่ง Hypernetwork

[วิธีการสร้างการแสดงผล ICL โดยไม่ต้องเลือกตัวอย่างด้วยตนเอง] Z-ICL: การเรียนรู้แบบไม่ต้องใช้ในบริบทด้วยการหลอกแบบหลอก

[คำสั่งงานและข้อความสร้างการฝังอยู่ด้วยกัน] หนึ่ง EMBEDDER งานใด ๆ : การฝังข้อความคำสั่ง

【โมเดลขนาดใหญ่การสอนรูปแบบขนาดเล็ก cot 】มีด: การกลั่นความรู้ด้วยเหตุผลข้อความฟรี

[ปัญหาของความไม่สอดคล้องกันระหว่างแหล่งที่มาและการแบ่งส่วนคำเป้าหมายของโมเดลการสร้างการสกัดข้อมูล] ความสอดคล้องของโทเค็นการทำให้เกิดความสอดคล้องสำหรับแบบจำลองการกำเนิดในงาน NLP สกัด

Parsel: กรอบภาษาธรรมชาติแบบครบวงจรสำหรับการใช้เหตุผลอัลกอริทึม

[การเลือกตัวอย่าง ICL, การเลือกระยะแรกและการเรียงลำดับระยะที่สอง] การปรับเปลี่ยนการเรียนรู้ด้วยตนเองในบริบท

[การอ่านอย่างเข้มข้น, วิธีการเลือกที่ไม่ได้รับอนุญาตที่อ่านได้, GPT-2] ไปยังการปรับจูนพร้อมที่มนุษย์อ่านได้: Kubrick's The Shining เป็นภาพยนตร์ที่ดีและเป็นพรอมต์ที่ดีเช่นกัน

การสำรวจและชุดข้อมูล

【ชุดข้อมูล Prontoqa ทดสอบความสามารถในการอนุมานของ COT และพบว่าความสามารถในการวางแผนยังคงมีข้อ จำกัด 】แบบจำลองภาษาสามารถ (ชนิดของ) เหตุผล: การวิเคราะห์อย่างเป็นทางการอย่างเป็นระบบของห่วงโซ่ของความคิด

【ชุดข้อมูลการใช้เหตุผล】 wikiwhy: การตอบและอธิบายคำถามสาเหตุและผลกระทบ

【ชุดข้อมูลการใช้เหตุผล】 Street: การใช้เหตุผลเชิงโครงสร้างแบบหลายงานและมาตรฐานคำอธิบาย

【ชุดข้อมูลการใช้เหตุผลเปรียบเทียบการฝึกอบรมก่อนการฝึกอบรมและการปรับแต่งอย่างละเอียดรวมถึงรูปแบบการปรับแต่ง COT 】การแจ้งเตือน: การปรับรูปแบบภาษาให้เข้ากับงานให้เหตุผล

[บทสรุปของการใช้เหตุผลล่าสุดโดยทีมจางหนิงวของมหาวิทยาลัยเจ้อเจียง] การให้เหตุผลด้วยการกระตุ้นแบบจำลองภาษา: การสำรวจ

[สรุปเทคโนโลยีการสร้างข้อความและทิศทางโดยทีมงานของ Xiao Yanghua ใน Fudan] การควบคุมความรู้และการให้เหตุผลสำหรับการสร้างภาษาธรรมชาติเหมือนมนุษย์: บทวิจารณ์สั้น ๆ

[สรุปบทความเหตุผลล่าสุด Jie Huang จาก UIUC] ไปสู่การให้เหตุผลในรูปแบบภาษาขนาดใหญ่: การสำรวจ

【การทบทวนงานชุดข้อมูลและวิธีการใช้เหตุผลทางคณิตศาสตร์และ DL 】การสำรวจการเรียนรู้อย่างลึกซึ้งสำหรับการใช้เหตุผลทางคณิตศาสตร์

การสำรวจการประมวลผลภาษาธรรมชาติสำหรับการเขียนโปรแกรม

ชุดข้อมูลการสร้างแบบจำลองรางวัล:

ชุดข้อมูลนี้จัดทำโดย Stiennon และคณะ ชุดข้อมูลนี้มีสองส่วน: การเปรียบเทียบและแกน ในส่วนเปรียบเทียบคำอธิบายประกอบคู่มือถูกขอให้เลือกสิ่งที่ดีที่สุดจากสองสรุป ในส่วนของแกนตัวอธิบายประกอบด้วยตนเองให้คะแนนคุณภาพสรุปตามมาตราส่วน Likert ส่วนการเปรียบเทียบมีเพียงการฝึกอบรมและการตรวจสอบแยกในขณะที่ส่วนแกนมีเพียงการทดสอบและการแยกการแยก บทคัดย่อที่ใช้ในการฝึกอบรมโมเดลรางวัลในกระดาษมาจากชุดข้อมูล TL; DR ข้อมูลการตรวจสอบความถูกต้องและการทดสอบอื่น ๆ มาจาก TL; ชุดข้อมูล DR, บทความ CNN และบทความจดหมายรายวัน https://huggingface.co/datasets/openai/summarize_from_feedback
ชุดข้อมูลนี้มาจาก Ganguli และคณะ (2022); 3 ตัวอย่างหนึ่งรวมถึงการสนทนาระหว่างมนุษย์และ chatbots มนุษย์ชอบหนึ่งในสองบทสนทนานี้ https://huggingface.co/datasets/anthropic/hh-rlhf
ชุดข้อมูลนี้มาจาก Nakano และคณะ (2021) แต่ละตัวอย่างในชุดข้อมูลมีคำตอบของแบบจำลองสำหรับคำถามคู่หนึ่งรวมถึงข้อมูลเมตาที่เกี่ยวข้อง 每个答案都有一个来自人类的偏好分数，可用于确定两个答案中哪个更好。 https://huggingface.co/datasets/openai/webgpt_comparisons
SHP是一个由385K个集体人类对18个不同主题领域的问题/指示的反应的偏好组成的数据集，从烹饪到法律咨询。这些偏好旨在反映一种回答对另一种回答的帮助程度，并打算用于训练RLHF奖励模型和NLG评估模型（例如SteamSHP）。 https://huggingface.co/datasets/stanfordnlp/SHP

Red-teaming数据集，harmless vs. helpful， RLHF +scale更难被攻击（另一个有效的技术是CoT fine-tuning）:

对于什么是成功的攻击，人类之间总体上达成的共识很低。
Meta's Bot Adversarial Dialog dataset https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Anthropic's red-teaming attempts https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/main/red-team-attempts
AI2's RealToxicityPrompts https://huggingface.co/datasets/allenai/real-toxicity-prompts