การเรียนรู้แบบเสริมกำลังจำกัดการใช้งานเนื่องจากประสิทธิภาพของตัวอย่างต่ำ แต่แบบจำลองของโลกในฐานะแบบจำลองการสร้างสภาพแวดล้อมนำมาซึ่งความหวังในการแก้ปัญหานี้ สามารถฝึกอบรมตัวแทนการเรียนรู้แบบเสริมกำลังได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม โมเดลโลกส่วนใหญ่ใช้ลำดับตัวแปรแฝงที่ไม่ต่อเนื่องเพื่อจำลองพลวัตของสิ่งแวดล้อม ซึ่งอาจเพิกเฉยต่อรายละเอียดภาพที่สำคัญ บรรณาธิการของ Downcodes นำเสนอการตีความ DIAMOND (Ambient Dream Diffusion Model) ให้กับคุณ ซึ่งใช้แบบจำลองการแพร่กระจายเพื่อฝึกอบรมตัวแทนการเรียนรู้แบบเสริมกำลัง และบรรลุผลลัพธ์ที่ยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐาน Atari 100k
ปัจจุบัน แบบจำลองของโลกส่วนใหญ่จำลองพลวัตของสิ่งแวดล้อมผ่านลำดับตัวแปรแฝงที่แยกจากกัน อย่างไรก็ตาม วิธีการบีบอัดให้เป็นการนำเสนอแบบแยกส่วนขนาดกะทัดรัดนี้อาจละเลยรายละเอียดทางภาพซึ่งมีความสำคัญอย่างยิ่งต่อการเรียนรู้แบบเสริมกำลัง
ในเวลาเดียวกัน แบบจำลองการแพร่กระจายได้กลายเป็นวิธีการที่โดดเด่นในด้านการสร้างภาพ ซึ่งท้าทายวิธีการสร้างแบบจำลองตัวแปรแฝงแบบแยกส่วนแบบดั้งเดิม นักวิจัยได้เสนอวิธีการใหม่ที่เรียกว่า DIAMOND (แบบจำลองการแพร่กระจายความฝันโดยรอบ) โดยได้รับแรงบันดาลใจจากสิ่งนี้ ซึ่งเป็นการเรียนรู้แบบเสริมกำลังที่ได้รับการฝึกอบรมในรูปแบบโลกการแพร่กระจาย DIAMOND ได้เลือกตัวเลือกการออกแบบที่สำคัญเพื่อให้มั่นใจถึงประสิทธิภาพและความเสถียรของแบบจำลองการแพร่กระจายในระยะเวลาอันยาวนาน
DIAMOND ได้รับคะแนนเฉลี่ยตามมาตรฐานของมนุษย์ที่ 1.46 จากเกณฑ์มาตรฐาน Atari100k อันโด่งดัง ซึ่งเป็นผลลัพธ์ที่ดีที่สุดสำหรับตัวแทนที่ได้รับการฝึกอบรมเกี่ยวกับแบบจำลองของโลกทั้งหมด นอกจากนี้ ข้อดีของการดำเนินงานในพื้นที่ภาพก็คือแบบจำลองโลกกระจายสามารถทดแทนสภาพแวดล้อมได้โดยตรง ช่วยให้เข้าใจแบบจำลองโลกและพฤติกรรมของเอเจนต์ได้ดียิ่งขึ้น นักวิจัยพบว่าการปรับปรุงประสิทธิภาพในบางเกมมาจากการสร้างแบบจำลองรายละเอียดภาพที่สำคัญที่ดีขึ้น
ความสำเร็จของ DIAMOND เกิดจากการเลือกกรอบงาน EDM (Elucidating the Design Space of Diffusion-based Generative Models) เมื่อเปรียบเทียบกับ DDPM แบบดั้งเดิม (แบบจำลองความน่าจะเป็นการแพร่กระจายแบบ Denoising) EDM มีความเสถียรสูงกว่าโดยมีขั้นตอนการลดสัญญาณรบกวนน้อยลง หลีกเลี่ยงข้อผิดพลาดสะสมร้ายแรงในแบบจำลองในระยะเวลานาน
นอกจากนี้ DIAMOND ยังแสดงให้เห็นถึงความสามารถของแบบจำลองโลกที่กระจายเพื่อทำหน้าที่เป็นเอ็นจิ้นเกมประสาทเชิงโต้ตอบ ด้วยการฝึกฝนกับข้อมูลเกม Counter-Strike: Global Offensive เป็นเวลา 87 ชั่วโมง DIAMOND ได้สร้างเอ็นจิ้นเกมประสาทแผนที่ Dust II แบบโต้ตอบได้สำเร็จ
ในอนาคต DIAMOND สามารถปรับปรุงประสิทธิภาพเพิ่มเติมได้โดยการบูรณาการกลไกหน่วยความจำขั้นสูง เช่น Transformers แบบ autoregressive นอกจากนี้ การรวมการทำนายรางวัล/การเลิกจ้างเข้ากับแบบจำลองการแพร่กระจายก็เป็นแนวทางที่ควรค่าแก่การสำรวจเช่นกัน
ที่อยู่กระดาษ: https://arxiv.org/pdf/2405.12399
การเกิดขึ้นของ DIAMOND ได้นำมาซึ่งความก้าวหน้าครั้งใหม่ในด้านการเรียนรู้แบบเสริมกำลัง ประสิทธิภาพที่ยอดเยี่ยมในเกม Atari และเกม "Counter-Strike" แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมของโมเดลการแพร่กระจายในการสร้างโมเดลโลกที่มีประสิทธิภาพ ในอนาคต ด้วยการพัฒนาเทคโนโลยีเพิ่มเติม DIAMOND และเทคโนโลยีอนุพันธ์ของ DIAMOND คาดว่าจะถูกนำไปใช้ในสาขาต่างๆ มากขึ้น และส่งเสริมความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์ รอคอยผลการวิจัยเพิ่มเติมเกี่ยวกับการเรียนรู้แบบเสริมแรงตามแบบจำลองการแพร่กระจาย