การจัดตำแหน่งแบบจำลองการแพร่กระจายที่ยอดเยี่ยม
คอลเลกชันเอกสารที่ยอดเยี่ยมเกี่ยวกับการจัดตำแหน่งของแบบจำลองการแพร่กระจาย
หากคุณสนใจในการจัดตำแหน่งของแบบจำลองการแพร่กระจาย โปรดดูรายงานการสำรวจของเรา "การจัดตำแหน่งของแบบจำลองการแพร่กระจาย: ความรู้พื้นฐาน ความท้าทาย และอนาคต" ซึ่งเป็นการสำรวจครั้งแรกในหัวข้อนี้เพื่อให้ความรู้ของเรา
เราหวังว่าจะเพลิดเพลินไปกับการผจญภัยในการสำรวจแบบจำลองการจัดตำแหน่งและการแพร่กระจายกับนักวิจัยจำนวนมากขึ้น ยินดีแก้ไขและข้อเสนอแนะ
เทคนิคการจัดตำแหน่งของแบบจำลองการแพร่กระจาย
RLHF
- ImageReward: การเรียนรู้และการประเมินการตั้งค่าของมนุษย์สำหรับการสร้างข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- DPOK: การเรียนรู้แบบเสริมกำลังสำหรับการปรับแต่งโมเดลการแพร่กระจายข้อความเป็นรูปภาพอย่างละเอียด, NeurIPS 2023, [pdf]
- การจัดแนวโมเดลข้อความเป็นรูปภาพโดยใช้การตอบสนองของมนุษย์ arXiv 2023, [pdf]
- การจัดตำแหน่งโมเดลการแพร่กระจายของข้อความเป็นรูปภาพด้วยการเผยแพร่ย้อนกลับของรางวัล arXiv 2023, [pdf]
- แบบจำลองการแพร่กระจายแบบละเอียดโดยตรงบนรางวัลที่สร้างความแตกต่างได้ ICLR 2024, [pdf]
- PRDP: การทำนายผลต่างรางวัลใกล้เคียงสำหรับการปรับแต่งรางวัลขนาดใหญ่ของแบบจำลองการแพร่กระจาย CVPR 2024, [pdf]
- ผลตอบรับ การปรับแต่งโมเดลการแพร่กระจายแบบละเอียดทางออนไลน์อย่างมีประสิทธิภาพ ICML 2024, [pdf]
- การปรับแต่งแบบจำลองการแพร่ของเวลาต่อเนื่องแบบละเอียดเป็นการควบคุมแบบเอนโทรปีแบบสม่ำเสมอ arXiv 2024, [pdf]
- การทำความเข้าใจการปรับแต่งโมเดลการแพร่กระจายอย่างละเอียดโดยใช้การเรียนรู้เสริม: บทช่วยสอนและการทบทวน arXiv 2024, [pdf]
- การจัดแนวโมเดลการแพร่กระจายไม่กี่ขั้นตอนกับการเรียนรู้ความแตกต่างแบบให้รางวัลหนาแน่น arXiv 2024, [pdf]
อ.ส.ค
- การจัดตำแหน่งแบบจำลองการแพร่กระจายโดยใช้การเพิ่มประสิทธิภาพการตั้งค่าโดยตรง CVPR 2024, [pdf]
- การใช้ผลตอบรับจากมนุษย์เพื่อปรับแต่งโมเดลการแพร่กระจายโดยไม่มีโมเดลรางวัลใดๆ CVPR 2024, [pdf]
- มุมมองที่คุ้มค่าในการจัดการกระจายข้อความเป็นรูปภาพให้สอดคล้องกับความต้องการ ICML 2024, [pdf]
- การปรับแต่งแบบจำลองการแพร่กระจายแบบละเอียดสำหรับการเล่นด้วยตนเองสำหรับการสร้างข้อความเป็นรูปภาพ NeuroIPS 2024, [pdf]
- การจัดแนวแบบจำลองการแพร่กระจายโดยการปรับประโยชน์ใช้สอยของมนุษย์ให้เหมาะสม arXiv 2024, [pdf]
- การเพิ่มประสิทธิภาพการกำหนดลักษณะแบบ Step-aware: การจัดแนวการกำหนดลักษณะกับประสิทธิภาพการลดสัญญาณรบกวนในแต่ละขั้นตอน arXiv 2024, [pdf]
- การปรับแบบจำลองการแพร่กระจายแบบขั้นเวลา-การกลั่นโดยใช้การปรับตัวอย่างให้เหมาะสมแบบคู่ arXiv 2024, [pdf]
- การเพิ่มประสิทธิภาพการตั้งค่าอันดับที่สามารถปรับขนาดได้สำหรับการสร้างข้อความเป็นรูปภาพ arXiv 2024, [pdf]
- จัดลำดับความสำคัญขั้นตอนการลดสัญญาณรบกวนในการจัดตำแหน่งแบบจำลองการแพร่กระจายผ่านการประมาณค่าการกระจายสัญญาณรบกวนที่ชัดเจน arXiv 2024, [pdf]
การจัดตำแหน่งโดยนัยโดยไม่ต้องฝึกอบรม
- การเพิ่มประสิทธิภาพพรอมต์สำหรับการสร้างข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- RePrompt: การแก้ไขพร้อมท์อัตโนมัติเพื่อปรับแต่งงานศิลปะ AI-Generative ไปสู่การแสดงออกที่แม่นยำ ชิ 2023, [pdf]
- การปรับปรุงความสอดคล้องของข้อความเป็นรูปภาพผ่านการเพิ่มประสิทธิภาพพร้อมท์อัตโนมัติ TMLR 2024, [pdf]
- การเพิ่มประสิทธิภาพพรอมต์แบบไดนามิกสำหรับการสร้างข้อความเป็นรูปภาพ CVPR 2024, [pdf]
- ReNO: การปรับปรุงโมเดลข้อความเป็นรูปภาพในขั้นตอนเดียวผ่านการเพิ่มประสิทธิภาพสัญญาณรบกวนตามรางวัล NeuroIPS 2024, [pdf]
- สู่การจัดตำแหน่งการสร้างข้อความเป็นรูปภาพที่ดีขึ้นผ่านการปรับความสนใจ arXiv 2024, [pdf]
- เสียงทั้งหมดไม่ได้ถูกสร้างขึ้นอย่างเท่าเทียมกัน: การเลือกและการเพิ่มประสิทธิภาพสัญญาณรบกวนจากการแพร่กระจาย arXiv 2024, [pdf]
- คำแนะนำแบบไม่มีอนุพันธ์ในแบบจำลองการแพร่กระจายแบบต่อเนื่องและแบบไม่ต่อเนื่องพร้อมการถอดรหัสตามมูลค่าอ่อน arXiv 2024, [pdf]
- การจัดตำแหน่งเวลาอนุมานของแบบจำลองการแพร่กระจายพร้อมการปรับสัญญาณรบกวนโดยตรง arXiv 2024, [pdf]
การจัดตำแหน่งที่เหนือกว่าโมเดลการแพร่กระจายข้อความเป็นรูปภาพ
- การจัดแนววิถีการปรับให้เหมาะสมให้สอดคล้องกับแบบจำลองการแพร่กระจายสำหรับการสร้างการออกแบบที่มีข้อจำกัด NeuroIPS 2023, [pdf]
- AlignDiff: ปรับการตั้งค่าของมนุษย์ที่หลากหลายผ่านโมเดลการแพร่กระจายที่ปรับแต่งตามพฤติกรรมได้ ICLR 2024, [pdf]
- HIVE: การควบคุมผลตอบรับของมนุษย์เพื่อการแก้ไขภาพเชิงการเรียนการสอน CVPR 2024, [pdf]
- InstructVideo: การสอนโมเดลการแพร่กระจายวิดีโอด้วยผลตอบรับจากมนุษย์ CVPR 2024, [pdf]
- DreamReward: การสร้างข้อความเป็น 3D ตามความต้องการของมนุษย์ arXiv 2024, [pdf]
- การจัดตำแหน่งเป็นกุญแจสำคัญสำหรับการใช้แบบจำลองการแพร่กระจายกับการสังเคราะห์ย้อนกลับ arXiv 2024, [pdf]
- การจัดตำแหน่งการแพร่กระจายวิดีโอผ่านการไล่ระดับสีของรางวัล arXiv 2024, [pdf]
- การจัดตำแหน่งแบบจำลองการแพร่กระจายของโมเลกุลที่รับรู้เป้าหมายกับการเพิ่มประสิทธิภาพพลังงานที่แน่นอน arXiv 2024, [pdf]
- VideoRepair: การปรับปรุงการสร้างข้อความเป็นวิดีโอผ่านการประเมินแนวที่ไม่ตรงและการปรับแต่งเฉพาะที่ arXiv 2024, [pdf]
เกณฑ์มาตรฐานและการประเมินผล
- DALL-Eval: การพิสูจน์ทักษะการใช้เหตุผลและอคติทางสังคมของหม้อแปลงไฟฟ้าแปลงข้อความเป็นรูปภาพ ICCV 2023, [pdf]
- คะแนนความชอบของมนุษย์: การจัดแนวโมเดลข้อความเป็นรูปภาพให้สอดคล้องกับความต้องการของมนุษย์ได้ดีขึ้น ICCV 2023, [pdf]
- ImageReward: การเรียนรู้และการประเมินการตั้งค่าของมนุษย์สำหรับการสร้างข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- Pick-a-Pic: ชุดข้อมูลเปิดของการตั้งค่าผู้ใช้สำหรับการสร้างข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- LLMScore: เผยพลังของแบบจำลองภาษาขนาดใหญ่ในการประเมินการสังเคราะห์ข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- VPGen & VPEval: การเขียนโปรแกรมด้วยภาพสำหรับการสร้างและประเมินผลข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- คะแนนความชอบของมนุษย์ v2: เกณฑ์มาตรฐานที่ชัดเจนสำหรับการประเมินการตั้งค่าของมนุษย์ในการสังเคราะห์ข้อความเป็นรูปภาพ arXiv 2023, [pdf]
- GenEval: กรอบงานที่เน้นวัตถุสำหรับการประเมินการจัดตำแหน่งข้อความเป็นรูปภาพ ชุดข้อมูลและเกณฑ์มาตรฐาน NeurIPS 2023, [pdf]
- การประเมินแบบองค์รวมของโมเดลข้อความเป็นรูปภาพ NeuroIPS 2023, [pdf]
- รางวัลทางสังคม: การประเมินและเสริมสร้าง Generative AI ผ่านการตอบรับจากผู้ใช้นับล้านจากชุมชนสร้างสรรค์ออนไลน์ ICLR 2024, [pdf]
- เสียงตอบรับจากมนุษย์มากมายสำหรับการสร้างข้อความเป็นรูปภาพ CVPR 2024, [pdf]
- การเรียนรู้การตั้งค่าของมนุษย์หลายมิติสำหรับการสร้างข้อความเป็นรูปภาพ CVPR 2024, [pdf]
- โมเดลภาษาขนาดใหญ่หลายรูปแบบทำให้โมเดลการสร้างข้อความเป็นรูปภาพจัดเรียงได้ดีขึ้น NeuroIPS 2024, [pdf]
- การวัดความคล้ายคลึงกันของรูปแบบในแบบจำลองการแพร่กระจาย arXiv 2024, [pdf]
พื้นฐานของการจัดตำแหน่งของมนุษย์
การสร้างแบบจำลองการตั้งค่า
- การวิเคราะห์อันดับของการออกแบบบล็อกที่ไม่สมบูรณ์: I. วิธีการเปรียบเทียบแบบคู่ ชีวมิติ 2495, [pdf]
- พฤติกรรมการเลือกส่วนบุคคล จอห์น ไวลีย์ 1959, [pdf]
- การวิเคราะห์การเรียงสับเปลี่ยน วารสารราชสมาคมสถิติ. Series C (สถิติประยุกต์) 2518, [pdf]
- การเรียนรู้เพื่อจัดอันดับโดยแบ่งตามความชอบ: การประมาณค่าที่รวดเร็วสำหรับโมเดล Plackett-Luce AISTATS 2021, [pdf]
- แบบจำลองความชอบของมนุษย์สำหรับฟังก์ชันรางวัลการเรียนรู้ arXiv 2022, [pdf]
- เหนือกว่าการตั้งค่าในการจัดตำแหน่ง AI arXiv 2024, [pdf]
RLHF
- การฝึกอบรมโมเดลภาษาให้ปฏิบัติตามคำแนะนำพร้อมผลตอบรับจากมนุษย์ NeuroIPS 2022, [pdf]
- AI รัฐธรรมนูญ: การไม่มีอันตรายจากคำติชมของ AI arXiv 2022, [pdf]
- RRHF: จัดอันดับการตอบสนองต่อการจัดรูปแบบภาษาให้สอดคล้องกับผลตอบรับของมนุษย์โดยไม่ต้องเสียน้ำตา NeuroIPS 2023, [pdf]
- RAFT: รางวัล rAnked FineTuning สำหรับการจัดตำแหน่งแบบจำลองพื้นฐานทั่วไป TMLR 2024, [pdf]
- RLAIF กับ RLHF: ปรับขนาดการเรียนรู้การเสริมแรงจากผลตอบรับของมนุษย์ด้วยผลตอบรับของ AI ICML 2024, [pdf]
- กลับไปสู่พื้นฐาน: ทบทวนการเพิ่มประสิทธิภาพรูปแบบ REINFORCE เพื่อการเรียนรู้จากผลตอบรับของมนุษย์ใน LLM ACL 2024, [pdf]
อ.ส.ค
- การเพิ่มประสิทธิภาพการตั้งค่าโดยตรง: โมเดลภาษาของคุณถือเป็นโมเดลรางวัลอย่างลับๆ NeuroIPS 2023, [pdf]
- การเพิ่มประสิทธิภาพการจัดอันดับการตั้งค่าสำหรับการจัดตำแหน่งของมนุษย์ AAAI 2024, [pdf]
- กระบวนทัศน์ทางทฤษฎีทั่วไปเพื่อทำความเข้าใจการเรียนรู้จากความชอบของมนุษย์ AISTATS 2024, [pdf]
- KTO: การจัดตำแหน่งแบบจำลองเป็นการเพิ่มประสิทธิภาพทางทฤษฎีของผู้มีแนวโน้มจะเป็นลูกค้า ICML 2024, [pdf]
- LiPO: การเพิ่มประสิทธิภาพการตั้งค่าตามรายการผ่านการเรียนรู้สู่อันดับ arXiv 2024, [pdf]
- ORPO: การเพิ่มประสิทธิภาพการกำหนดลักษณะเสาหินโดยไม่มีแบบจำลองอ้างอิง arXiv 2024, [pdf]
ความท้าทายและโอกาสที่อาจเกิดขึ้นจากการจัดตำแหน่งการแพร่กระจาย
- กฎหมายปรับขนาดสำหรับการเพิ่มประสิทธิภาพโมเดลรางวัลมากเกินไป ICML 2023, [pdf]
- ปัญหาการจัดตำแหน่งจากมุมมองการเรียนรู้เชิงลึก ICLR 2024, [pdf]
- Beyond Reverse KL: การเพิ่มประสิทธิภาพการตั้งค่าโดยตรงโดยทั่วไปด้วยข้อจำกัดความแตกต่างที่หลากหลาย ICLR 2024, [pdf]
- แนชเรียนรู้จากผลตอบรับของมนุษย์ ICML 2024, [pdf]
- การเรียนรู้การตั้งค่าซ้ำจากผลตอบรับของมนุษย์: ทฤษฎีการเชื่อมโยงและการปฏิบัติสำหรับ RLHF ภายใต้ข้อจำกัด KL ICML 2024, [pdf]
- รางวัลหนาแน่นฟรีในการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ ICML 2024, [pdf]
- ตำแหน่ง: แผนงานสู่การจัดตำแหน่งพหุนิยม ICML 2024, [pdf]
- การประเมินความเปราะบางของการจัดตำแหน่งความปลอดภัยผ่านการตัดแต่งกิ่งและการปรับเปลี่ยนระดับต่ำ ICML 2024, [pdf]
- MaxMin-RLHF: สอดคล้องกับการตั้งค่าของมนุษย์ที่หลากหลาย ICML 2024, [pdf]
- รางวัลในบริบท: การจัดตำแหน่งหลายวัตถุประสงค์ของโมเดลพื้นฐานพร้อมการปรับการตั้งค่าแบบไดนามิก ICML 2024, [pdf]
- การเรียนรู้แบบจำลองรางวัลกับการเพิ่มประสิทธิภาพนโยบายโดยตรง: การวิเคราะห์เปรียบเทียบการเรียนรู้จากความชอบของมนุษย์ ICML 2024, [pdf]
- การเพิ่มประสิทธิภาพการกำหนดลักษณะทั่วไป: แนวทางแบบครบวงจรเพื่อการจัดตำแหน่งแบบออฟไลน์ ICML 2024, [pdf]
- การจัดตำแหน่งโมเดลภาษาขนาดใหญ่โดยมนุษย์ผ่านการเพิ่มประสิทธิภาพการตั้งค่าออนไลน์ ICML 2024, [pdf]
- การทำความเข้าใจพลวัตการเรียนรู้ของการปรับให้สอดคล้องกับผลตอบรับของมนุษย์ ICML 2024, [pdf]
- ตำแหน่ง: ทางเลือกทางสังคมควรเป็นแนวทางในการจัดตำแหน่ง AI ในการจัดการกับคำติชมของมนุษย์ที่หลากหลาย ICML 2024, [pdf]
- DPO เหนือกว่า PPO สำหรับการจัดตำแหน่ง LLM หรือไม่ การศึกษาที่ครอบคลุม ICML 2024, [pdf]
- BOND: การจัด LLM กับการกลั่นแบบ Best-of-N arXiv 2024, [pdf]
- การเผชิญหน้ากับการเพิ่มประสิทธิภาพรางวัลมากเกินไปสำหรับแบบจำลองการแพร่กระจาย: มุมมองของอคติแบบอุปนัยและปฐมภูมิ [pdf]
การอ้างอิง
หากคุณพบว่ารายการงานวิจัยมีประโยชน์สำหรับการวิจัยของคุณ คุณสามารถอ้างอิงรายงานการสำรวจของเราในหัวข้อนี้ได้!
@article{liu2024alignment,
title = {Alignment of Diffusion Models: Fundamentals, Challenges, and Future},
author = {Liu, Buhua and Shao, Shitong and Li, Bao and Bai, Lichen, and Xu, Zhiqiang and Xiong, Haoyi and Kwok, James and Helal, Sumi and Xie, Zeke},
journal = {arXiv preprint arXiv 2024.07253},
year = {2024}
}