強化學習因樣本效率低而限制了其應用,但世界模型作為環境生成模型為解決這個問題帶來了希望。它能有效率地訓練強化學習智能體,然而大多數世界模型使用離散潛變數序列模擬環境動態,可能忽略關鍵視覺細節。 Downcodes小編為您帶來一篇關於DIAMOND(環境夢境擴散模型)的解讀,它利用擴散模型訓練強化學習智能體,在Atari 100k基準測試中取得了優異成績。
目前,大多數世界模型透過離散潛變量序列來模擬環境動態。然而,這種壓縮成緊湊離散表示的方法可能會忽略對強化學習至關重要的視覺細節。
同時,擴散模型已成為影像生成領域的主導方法,挑戰了傳統的離散潛在變數建模方法。受此啟發,研究人員提出了一種名為DIAMOND(環境夢境擴散模型)的新方法,它是一種在擴散世界模型中訓練的強化學習智能體。 DIAMOND在設計上做出了關鍵選擇,以確保擴散模型在長時間範圍內的高效性和穩定性。
DIAMOND在著名的Atari100k基準測試中取得了1.46的平均人類標準化得分,這是完全在世界模型中訓練的智能體的最佳成績。此外,在影像空間中操作的優點在於,擴散世界模型可以直接取代環境,從而更好地理解世界模型和智慧體的行為。研究人員發現,某些遊戲表現的提升源自於對關鍵視覺細節的更好建模。
DIAMOND的成功得益於EDM(Elucidating the Design Space of Diffusion-based Generative Models)框架的選擇。與傳統的DDPM(Denoising Diffusion Probabilistic Models)相比,EDM在較少的去噪步驟下表現出更高的穩定性,避免了模型在長時間範圍內出現嚴重的累積誤差。
此外,DIAMOND也展示了其擴散世界模型可作為互動式神經遊戲引擎的能力。透過在87小時的靜態《反恐精英:全球攻勢》遊戲資料上進行訓練,DIAMOND成功產生了一個可互動的Dust II地圖神經遊戲引擎。
未來,DIAMOND可以透過整合更先進的記憶機制,例如自回歸Transformer,進一步提升其表現。此外,將獎勵/終止預測整合到擴散模型中也是一個值得探索的方向。
論文網址:https://arxiv.org/pdf/2405.12399
DIAMOND 的出現為強化學習領域帶來了新的突破,其在Atari 遊戲和《反恐精英》遊戲中的出色表現,展現了擴散模型在構建高效世界模型方面的巨大潛力。未來,隨著技術的進一步發展,DIAMOND 及其衍生技術有望在更多領域得到應用,並推動人工智慧技術的進步。期待更多基於擴散模型的強化學習研究成果。