يحد التعلم المعزز من تطبيقه بسبب انخفاض كفاءة العينة، لكن النماذج العالمية كنماذج توليد البيئة تجلب الأمل لحل هذه المشكلة. يمكنه تدريب وكلاء التعلم المعزز بكفاءة، ولكن معظم النماذج العالمية تستخدم تسلسلات متغيرة كامنة منفصلة لمحاكاة الديناميكيات البيئية، والتي قد تتجاهل التفاصيل المرئية الهامة. يقدم لك محرر Downcodes تفسيرًا لـ DIAMOND (نموذج انتشار الحلم المحيط)، والذي يستخدم نموذج الانتشار لتدريب عملاء التعلم المعزز وحقق نتائج ممتازة في اختبار Atari 100k القياسي.
حاليًا، تحاكي معظم النماذج العالمية الديناميكيات البيئية من خلال تسلسلات متغيرة كامنة منفصلة. ومع ذلك، فإن طريقة الضغط هذه في تمثيل منفصل ومدمج قد تتجاهل التفاصيل المرئية التي تعتبر ضرورية للتعلم المعزز.
وفي الوقت نفسه، أصبحت نماذج الانتشار هي الطريقة السائدة في مجال توليد الصور، مما يشكل تحديًا لأساليب النمذجة المتغيرة الكامنة المنفصلة التقليدية. مستوحاة من هذا، اقترح الباحثون طريقة جديدة تسمى DIAMOND (نموذج نشر الحلم المحيط)، وهو عامل التعلم المعزز المدرب في نموذج عالمي للانتشار. لقد قامت DIAMOND باختيارات تصميم رئيسية لضمان كفاءة واستقرار نموذج الانتشار على مدى فترات طويلة من الزمن.
حققت DIAMOND متوسط نقاط طبيعية بشرية تبلغ 1.46 في معيار Atari100k الشهير، وهي أفضل نتيجة لعميل تم تدريبه بالكامل على نموذج من العالم. علاوة على ذلك، فإن ميزة العمل في مساحة الصورة هي أن نموذج العالم المنتشر يمكن أن يكون بديلاً مباشرًا للبيئة، مما يسمح بفهم أفضل للنموذج العالمي وسلوك الوكيل. وجد الباحثون أن تحسينات الأداء في بعض الألعاب تنبع من النمذجة الأفضل للتفاصيل المرئية الرئيسية.
يرجع نجاح DIAMOND إلى اختيار إطار عمل EDM (توضيح مساحة تصميم النماذج التوليدية القائمة على الانتشار). بالمقارنة مع DDPM التقليدية (النماذج الاحتمالية لانتشار تقليل الضوضاء)، يُظهر EDM ثباتًا أعلى مع خطوات أقل لتقليل الضوضاء، مما يتجنب الأخطاء التراكمية الخطيرة في النموذج على مدار فترة طويلة من الزمن.
بالإضافة إلى ذلك، أظهرت DIAMOND قدرة نموذجها العالمي المنتشر على العمل كمحرك ألعاب عصبي تفاعلي. من خلال التدريب على 87 ساعة من بيانات لعبة Counter-Strike: Global Offensive الثابتة، نجحت DIAMOND في إنشاء محرك لعبة عصبي تفاعلي لخريطة Dust II.
في المستقبل، يمكن لـ DIAMOND تحسين أدائها بشكل أكبر من خلال دمج آليات ذاكرة أكثر تقدمًا، مثل محولات الانحدار الذاتي. بالإضافة إلى ذلك، يعد دمج تنبؤات المكافأة/إنهاء الخدمة في نماذج الانتشار أيضًا اتجاهًا يستحق الاستكشاف.
عنوان الورقة: https://arxiv.org/pdf/2405.12399
لقد أدى ظهور DIAMOND إلى تحقيق اختراقات جديدة في مجال التعلم المعزز. ويوضح أدائها الممتاز في ألعاب Atari وألعاب "Counter-Strike" الإمكانات الكبيرة لنموذج الانتشار في بناء نماذج عالمية فعالة. في المستقبل، ومع مواصلة تطوير التكنولوجيا، من المتوقع أن يتم تطبيق DIAMOND والتقنيات المشتقة منها في المزيد من المجالات وتعزيز تقدم تكنولوجيا الذكاء الاصطناعي. نتطلع إلى المزيد من نتائج الأبحاث حول التعلم المعزز بناءً على نماذج الانتشار.