هل يمكن لنموذج الانتشار أيضًا ممارسة الألعاب؟ تطبق DIAMOND معيار SOTA الجديد لـ Atari 100k
يقدم محرر Downcodes إنجازات جديدة في التعلم المعزز! حقق DIAMOND، وهو نموذج عالمي يعتمد على نموذج الانتشار، متوسط نقاط طبيعية بشرية قدرها 1.46 على معيار Atari 100k، مسجلاً رقمًا قياسيًا جديدًا لعميل تم تدريبه بالكامل على نموذج عالمي. ويستخدم نموذج نشر لم
2025-01-10