Artikel ini memperkenalkan metode pembelajaran penguatan baru yang disebut Diamond, yang menggunakan model difusi untuk membangun model dunia untuk meningkatkan efisiensi sampel. Sampel yang tidak efisien dari metode pembelajaran penguatan tradisional membatasi aplikasi mereka di dunia nyata, dan Diamond secara efektif memecahkan masalah ini dengan melatih agen pembelajaran penguatan dalam model dunia difusi. Diamond mencapai hasil yang luar biasa dalam tolok ukur Atari 100K dan menunjukkan potensinya sebagai mesin game saraf interaktif.
Pembelajaran penguatan telah mencapai banyak keberhasilan dalam beberapa tahun terakhir, tetapi ketidakefisienannya dalam ukuran sampel membatasi penerapannya di dunia nyata. Model dunia, sebagai model generasi lingkungan, memberikan harapan untuk menyelesaikan masalah ini. Ini dapat bertindak sebagai lingkungan simulasi untuk melatih agen pembelajaran penguatan dengan efisiensi sampel yang lebih tinggi.
Saat ini, sebagian besar model dunia mensimulasikan dinamika lingkungan melalui urutan diskrit dari variabel laten. Namun, metode kompresi ini ke dalam representasi diskrit kompak dapat mengabaikan detail visual yang penting untuk pembelajaran penguatan.
Pada saat yang sama, model difusi telah menjadi metode dominan di bidang pembuatan gambar, menantang metode pemodelan variabel laten diskrit tradisional. Terinspirasi oleh ini, para peneliti mengusulkan pendekatan baru yang disebut Diamond (Model Difusi Lingkungan Mimpi), agen pembelajaran penguatan yang dilatih dalam model dunia difusi. Diamond membuat pilihan kunci dalam desain untuk memastikan model difusi yang efisien dan stabil dalam jangka waktu yang lama.
Diamond mencetak skor standardisasi manusia rata -rata 1,46 dalam patokan Atari100K yang terkenal, skor terbaik untuk agen yang dilatih sepenuhnya dalam model dunia. Selain itu, keuntungan dari operasi dalam ruang gambar adalah bahwa model dunia difusi dapat secara langsung menggantikan lingkungan, sehingga pemahaman yang lebih baik tentang perilaku model dan agen dunia. Para peneliti menemukan bahwa beberapa peningkatan kinerja game berasal dari pemodelan detail visual utama yang lebih baik.
Keberhasilan Diamond adalah karena pilihan EDM (menjelaskan ruang desain model generatif berbasis difusi). Dibandingkan dengan DDPM tradisional (model probabilistik difusi denoising), EDM menunjukkan stabilitas yang lebih tinggi dengan lebih sedikit langkah denoising, menghindari kesalahan kumulatif yang parah dalam model dalam periode waktu yang lama.
Selain itu, Diamond juga menunjukkan kemampuan model dunia difusi menjadi mesin game saraf interaktif. Dengan melatih 87 jam counter-strike statis: data permainan ofensif global, Diamond berhasil menghasilkan mesin game saraf peta interaktif II.
Di masa depan, Diamond dapat lebih meningkatkan kinerjanya dengan mengintegrasikan mekanisme memori yang lebih maju, seperti transformator autoregresif. Selain itu, mengintegrasikan prediksi hadiah/penghentian ke dalam model difusi juga merupakan arah yang layak dijelajahi.
Alamat kertas: https://arxiv.org/pdf/2405.12399
Singkatnya, Diamond memberikan solusi baru untuk masalah efisiensi sampel dari pembelajaran penguatan, dan penerapannya yang sukses di bidang game menunjukkan potensi yang sangat besar. Arah penelitian di masa depan patut diperhatikan, dan saya percaya Diamond akan terus mempromosikan pengembangan bidang pembelajaran penguatan.