Pembelajaran penguatan membatasi penerapannya karena efisiensi sampel yang rendah, namun model dunia sebagai model pembangkitan lingkungan membawa harapan untuk memecahkan masalah ini. Ini dapat melatih agen pembelajaran penguatan secara efisien, namun sebagian besar model dunia menggunakan rangkaian variabel laten terpisah untuk mensimulasikan dinamika lingkungan, yang mungkin mengabaikan detail visual penting. Editor Downcodes memberi Anda interpretasi DIAMOND (Ambient Dream Diffusion Model), yang menggunakan model difusi untuk melatih agen pembelajaran penguatan dan mencapai hasil luar biasa dalam tes benchmark Atari 100k.
Saat ini, sebagian besar model dunia mensimulasikan dinamika lingkungan melalui rangkaian variabel laten yang terpisah. Namun, metode mengompresi menjadi representasi diskrit yang ringkas ini mungkin mengabaikan detail visual yang penting untuk pembelajaran penguatan.
Pada saat yang sama, model difusi telah menjadi metode dominan di bidang pembuatan citra, menantang metode pemodelan variabel laten diskrit tradisional. Terinspirasi oleh hal tersebut, para peneliti mengusulkan metode baru yang disebut DIAMOND (ambient dream diffusion model), yang merupakan agen pembelajaran penguatan yang dilatih dalam model dunia difusi. DIAMOND telah membuat pilihan desain utama untuk memastikan efisiensi dan stabilitas model difusi dalam jangka waktu yang lama.
DIAMOND mencapai skor rata-rata yang dinormalisasi oleh manusia sebesar 1,46 pada benchmark Atari100k yang terkenal, hasil terbaik untuk agen yang dilatih sepenuhnya tentang model dunia. Selain itu, keuntungan beroperasi dalam ruang gambar adalah model dunia yang tersebar dapat menjadi pengganti langsung lingkungan, sehingga memungkinkan pemahaman yang lebih baik tentang model dunia dan perilaku agen. Para peneliti menemukan bahwa peningkatan kinerja di beberapa game berasal dari pemodelan detail visual utama yang lebih baik.
Kesuksesan DIAMOND berkat pilihan framework EDM (Elucidating the Design Space of Diffusion-based Generative Models). Dibandingkan dengan DDPM (Denoising Diffusion Probabilistic Models) tradisional, EDM menunjukkan stabilitas yang lebih tinggi dengan langkah denoising yang lebih sedikit, sehingga menghindari kesalahan kumulatif yang serius dalam model dalam jangka waktu yang lama.
Selain itu, DIAMOND mendemonstrasikan kemampuan model dunianya yang tersebar untuk berfungsi sebagai mesin permainan saraf interaktif. Dengan melatih data game Counter-Strike: Global Offensive statis selama 87 jam, DIAMOND berhasil menghasilkan mesin game neural peta Dust II yang interaktif.
Di masa depan, DIAMOND dapat lebih meningkatkan kinerjanya dengan mengintegrasikan mekanisme memori yang lebih canggih, seperti Transformers autoregresif. Selain itu, mengintegrasikan prediksi imbalan/penghentian ke dalam model difusi juga merupakan arah yang perlu ditelusuri.
Alamat makalah: https://arxiv.org/pdf/2405.12399
Kemunculan DIAMOND telah membawa terobosan baru di bidang pembelajaran penguatan. Performanya yang luar biasa dalam game Atari dan game "Counter-Strike" menunjukkan potensi besar model difusi dalam membangun model dunia yang efisien. Kedepannya, dengan semakin berkembangnya teknologi, DIAMOND dan teknologi turunannya diharapkan dapat diterapkan di lebih banyak bidang dan mendorong kemajuan teknologi kecerdasan buatan. Menantikan hasil penelitian lebih lanjut tentang pembelajaran penguatan berbasis model difusi.