تقدم هذه المقالة طريقة تعلم تعزيز جديدة تسمى Diamond ، والتي تستخدم نماذج الانتشار لبناء نماذج العالم لتحسين كفاءة العينة. تحد العينة غير الفعالة من أساليب التعلم التقليدية التقليدية من تطبيقها في العالم الحقيقي ، ويحل الماس هذه المشكلة بفعالية من خلال تدريب وكلاء التعلم التعزيز في نموذج عالم الانتشار. حقق Diamond نتائج رائعة في معيار Atari 100k وأظهر إمكاناته كمحرك ألعاب عصبي تفاعلي.
حقق التعلم التعزيز العديد من النجاحات في السنوات الأخيرة ، ولكن عدم كفاءته في حجم العينة يحد من تطبيقه في العالم الحقيقي. يوفر النموذج العالمي ، كنموذج لتوليد البيئة ، الأمل في حل هذه المشكلة. يمكن أن تكون بمثابة بيئة محاكاة لتدريب وكلاء التعلم التعزيز مع كفاءة عينة أعلى.
حاليًا ، تحاكي معظم نماذج العالم الديناميات البيئية من خلال تسلسلات منفصلة من المتغيرات الكامنة. ومع ذلك ، فإن طريقة الضغط هذه إلى تمثيلات منفصلة مضغوطة قد تتجاهل التفاصيل البصرية التي تعتبر حاسمة لتعزيز التعلم.
في الوقت نفسه ، أصبحت نماذج الانتشار هي الطريقة المهيمنة في مجال توليد الصور ، مما يتحدى طريقة النمذجة المتغيرة الكامنة التقليدية. مستوحى من هذا ، اقترح الباحثون نهجًا جديدًا يسمى Diamond (نموذج نشر الأحلام البيئية) ، وهو عامل تعلم تعزيز مدرب في نموذج عالم الانتشار. اتخذ Diamond خيارات رئيسية في التصميم لضمان نماذج الانتشار الفعالة والمستقرة على مدار فترة زمنية طويلة.
سجل Diamond درجة متوسط توحيد الإنسان البالغ 1.46 في مؤشر ATARI100K الشهير ، وهي أفضل درجة للوكلاء المدربين بالكامل في النموذج العالمي. علاوة على ذلك ، فإن ميزة العمل في مساحة الصورة هي أن نموذج عالم الانتشار يمكن أن يحل محل البيئة مباشرة ، وبالتالي فهم أفضل لسلوك نموذج العالم والوكلاء. وجد الباحثون أن بعض تحسينات أداء اللعبة تنبع من نمذجة أفضل للتفاصيل البصرية الرئيسية.
يرجع نجاح Diamond إلى اختيار إطار EDM (توضيح مساحة تصميم النماذج التوليدية القائمة على الانتشار). بالمقارنة مع DDPM التقليدية (النماذج الاحتمالية للانتشار) ، فإن EDM يعرض ثباتًا أعلى مع خطوات أقل من القوى ، وتجنب الأخطاء التراكمية الشديدة في النموذج على مدى فترة زمنية طويلة.
بالإضافة إلى ذلك ، يوضح Diamond أيضًا قدرة نموذج الانتشار العالمي على أن يكون محركًا عصبيًا تفاعليًا. من خلال التدريب على 87 ساعة من الإضراب العادي الثابت: بيانات اللعبة الهجومية العالمية ، قامت Diamond بنجاح بإنشاء محرك Game Dust II التفاعلي.
في المستقبل ، يمكن لـ Diamond تحسين أدائها من خلال دمج آليات الذاكرة الأكثر تقدماً ، مثل محول الانحدار التلقائي. بالإضافة إلى ذلك ، فإن دمج تنبؤات المكافأة/الإنهاء في نموذج الانتشار هو أيضًا اتجاه يستحق الاستكشاف.
عنوان الورق: https://arxiv.org/pdf/2405.12399
باختصار ، يوفر Diamond حلاً جديدًا لمشكلة كفاءة العينة المتمثلة في التعلم التعزيز ، ويوضح تطبيقه الناجح في مجال الألعاب إمكاناته الضخمة. إن اتجاه البحث المستقبلي يستحق الاهتمام به ، وأعتقد أن Diamond سيواصل تعزيز تطوير مجال التعلم التعزيز.