บทความนี้แนะนำวิธีการเรียนรู้การเสริมแรงใหม่ที่เรียกว่า Diamond ซึ่งใช้แบบจำลองการแพร่เพื่อสร้างแบบจำลองโลกเพื่อปรับปรุงประสิทธิภาพตัวอย่าง ตัวอย่างที่ไม่มีประสิทธิภาพของวิธีการเรียนรู้การเสริมแรงแบบดั้งเดิม จำกัด การประยุกต์ใช้ในโลกแห่งความเป็นจริงและไดมอนด์แก้ปัญหานี้ได้อย่างมีประสิทธิภาพโดยการฝึกอบรมตัวแทนการเรียนรู้การเสริมแรงในรูปแบบการแพร่กระจายของโลก Diamond ได้ผลลัพธ์ที่น่าทึ่งในเกณฑ์มาตรฐาน Atari 100K และแสดงให้เห็นถึงศักยภาพในการเป็นเครื่องมือเล่นเกมของระบบประสาทแบบโต้ตอบ
การเรียนรู้การเสริมกำลังประสบความสำเร็จมากมายในช่วงไม่กี่ปีที่ผ่านมา แต่ความไร้ประสิทธิภาพในขนาดตัวอย่าง จำกัด การใช้งานในโลกแห่งความเป็นจริง โมเดลโลกในฐานะรูปแบบการสร้างสิ่งแวดล้อมให้ความหวังในการแก้ปัญหานี้ มันสามารถทำหน้าที่เป็นสภาพแวดล้อมการจำลองเพื่อฝึกอบรมตัวแทนการเรียนรู้การเสริมแรงที่มีประสิทธิภาพตัวอย่างสูงขึ้น
ปัจจุบันโมเดลโลกส่วนใหญ่จำลองพลวัตด้านสิ่งแวดล้อมผ่านลำดับที่ไม่ต่อเนื่องของตัวแปรแฝง อย่างไรก็ตามวิธีการบีบอัดลงในการเป็นตัวแทนที่ไม่ต่อเนื่องแบบกะทัดรัดอาจเพิกเฉยต่อรายละเอียดทางภาพที่มีความสำคัญต่อการเรียนรู้การเสริมแรง
ในเวลาเดียวกันโมเดลการแพร่กระจายได้กลายเป็นวิธีที่โดดเด่นในด้านการสร้างภาพโดยท้าทายวิธีการสร้างแบบจำลองตัวแปรแฝงแบบไม่ต่อเนื่องแบบดั้งเดิม แรงบันดาลใจจากสิ่งนี้นักวิจัยเสนอวิธีการใหม่ที่เรียกว่าไดมอนด์ (แบบจำลองการแพร่กระจายสิ่งแวดล้อมความฝัน) ตัวแทนการเรียนรู้เสริมแรงที่ได้รับการฝึกฝนในรูปแบบการแพร่กระจายของโลก Diamond สร้างตัวเลือกที่สำคัญในการออกแบบเพื่อให้แน่ใจว่าโมเดลการแพร่กระจายที่มีประสิทธิภาพและมีเสถียรภาพในระยะเวลานาน
ไดมอนด์ทำคะแนนมาตรฐานของมนุษย์โดยเฉลี่ย 1.46 ในเกณฑ์มาตรฐาน Atari100K ที่มีชื่อเสียงคะแนนที่ดีที่สุดสำหรับตัวแทนที่ได้รับการฝึกฝนอย่างสมบูรณ์ในรูปแบบโลก นอกจากนี้ข้อได้เปรียบของการใช้งานในพื้นที่ภาพคือโมเดลการแพร่กระจายของโลกสามารถแทนที่สภาพแวดล้อมได้โดยตรงดังนั้นจึงมีความเข้าใจพฤติกรรมของโมเดลและตัวแทนโลกได้ดีขึ้น นักวิจัยพบว่าการปรับปรุงประสิทธิภาพของเกมบางอย่างเกิดจากการสร้างแบบจำลองที่ดีกว่าของรายละเอียดภาพสำคัญ
ความสำเร็จของไดมอนด์เป็นเพราะตัวเลือกของ EDM (อธิบายพื้นที่การออกแบบของแบบจำลองการแพร่กระจายที่ใช้การแพร่กระจาย) เมื่อเปรียบเทียบกับ DDPM แบบดั้งเดิม (แบบจำลองความน่าจะเป็นของการแพร่กระจายแบบ denoising) EDM แสดงความเสถียรที่สูงขึ้นโดยมีขั้นตอนการปฏิเสธน้อยลงหลีกเลี่ยงข้อผิดพลาดสะสมอย่างรุนแรงในแบบจำลองในระยะเวลานาน
นอกจากนี้ Diamond ยังแสดงให้เห็นถึงความสามารถของแบบจำลองการแพร่กระจายของโลกในการเป็นเอ็นจิ้นเกมประสาทแบบโต้ตอบ โดยการฝึกอบรมเกี่ยวกับการโต้ตอบแบบคงที่ 87 ชั่วโมง: ข้อมูลเกมที่น่ารังเกียจทั่วโลกไดมอนด์ประสบความสำเร็จในการสร้างเครื่องยนต์ Neural Game Interactive Dust II
ในอนาคตไดมอนด์สามารถปรับปรุงประสิทธิภาพได้โดยการรวมกลไกหน่วยความจำขั้นสูงเช่นหม้อแปลงอัตโนมัติ นอกจากนี้การบูรณาการการทำนายรางวัล/การเลิกจ้างเข้ากับโมเดลการแพร่กระจายก็เป็นทิศทางที่ควรค่าแก่การสำรวจ
ที่อยู่กระดาษ: https://arxiv.org/pdf/2405.12399
โดยสรุป Diamond เป็นวิธีแก้ปัญหาใหม่สำหรับปัญหาประสิทธิภาพตัวอย่างของการเรียนรู้การเสริมแรงและการใช้งานที่ประสบความสำเร็จในสนามเกมแสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ ทิศทางการวิจัยในอนาคตนั้นคุ้มค่าที่จะให้ความสนใจและฉันเชื่อว่าไดมอนด์จะยังคงส่งเสริมการพัฒนาสาขาการเรียนรู้การเสริมแรง