本文介紹了一種名為DIAMOND的新型強化學習方法,它利用擴散模型構建世界模型來提升樣本效率。傳統的強化學習方法樣本效率低下,限制了其在現實世界的應用,而DIAMOND通過在擴散世界模型中訓練強化學習智能體,有效解決了這個問題。 DIAMOND在Atari 100k基準測試中取得了顯著成果,並展示了其作為交互式神經遊戲引擎的潛力。
強化學習在近年來取得了許多成功,但其樣本效率低下,限制了其在現實世界中的應用。世界模型作為一種環境生成模型,為解決這一問題提供了希望。它可以作為模擬環境,以更高的樣本效率訓練強化學習智能體。
目前,大多數世界模型通過離散潛變量序列來模擬環境動態。然而,這種壓縮成緊湊離散表示的方法可能會忽略對強化學習至關重要的視覺細節。
與此同時,擴散模型已經成為圖像生成領域的主導方法,挑戰了傳統的離散潛變量建模方法。受此啟發,研究人員提出了一種名為DIAMOND(環境夢境擴散模型)的新方法,它是一種在擴散世界模型中訓練的強化學習智能體。 DIAMOND在設計上做出了關鍵選擇,以確保擴散模型在長時間範圍內的高效性和穩定性。
DIAMOND在著名的Atari100k基準測試中取得了1.46的平均人類標準化得分,這是完全在世界模型中訓練的智能體的最佳成績。此外,在圖像空間中操作的優勢在於,擴散世界模型可以直接替代環境,從而更好地理解世界模型和智能體的行為。研究人員發現,某些遊戲性能的提升源於對關鍵視覺細節的更好建模。
DIAMOND的成功得益於EDM(Elucidating the Design Space of Diffusion-based Generative Models)框架的選擇。與傳統的DDPM(Denoising Diffusion Probabilistic Models)相比,EDM在較少的去噪步驟下表現出更高的穩定性,避免了模型在長時間範圍內出現嚴重的累積誤差。
此外,DIAMOND還展示了其擴散世界模型可以作為交互式神經遊戲引擎的能力。通過在87小時的靜態《反恐精英:全球攻勢》遊戲數據上進行訓練,DIAMOND成功生成了一個可交互的Dust II地圖神經遊戲引擎。
未來,DIAMOND可以通過整合更先進的記憶機制,例如自回歸Transformer,來進一步提升其性能。此外,將獎勵/終止預測整合到擴散模型中也是一個值得探索的方向。
論文地址:https://arxiv.org/pdf/2405.12399
總而言之,DIAMOND為強化學習的樣本效率問題提供了一種新的解決方案,其在遊戲領域的成功應用展示了其巨大的潛力。未來的研究方向值得關注,相信DIAMOND將持續推動強化學習領域的發展。