扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

作者：Eve Cole 更新时间：2025-01-10 10:00:03

强化学习因样本效率低而限制了其应用，但世界模型作为环境生成模型为解决这一问题带来了希望。它能高效地训练强化学习智能体，然而大多数世界模型使用离散潜变量序列模拟环境动态，可能忽略关键视觉细节。Downcodes小编为您带来一篇关于DIAMOND（环境梦境扩散模型）的解读，它利用扩散模型训练强化学习智能体，在Atari 100k基准测试中取得了优异成绩。

目前，大多数世界模型通过离散潜变量序列来模拟环境动态。然而，这种压缩成紧凑离散表示的方法可能会忽略对强化学习至关重要的视觉细节。

与此同时，扩散模型已经成为图像生成领域的主导方法，挑战了传统的离散潜变量建模方法。受此启发，研究人员提出了一种名为DIAMOND（环境梦境扩散模型）的新方法，它是一种在扩散世界模型中训练的强化学习智能体。DIAMOND在设计上做出了关键选择，以确保扩散模型在长时间范围内的高效性和稳定性。

DIAMOND在著名的Atari100k基准测试中取得了1.46的平均人类标准化得分，这是完全在世界模型中训练的智能体的最佳成绩。此外，在图像空间中操作的优势在于，扩散世界模型可以直接替代环境，从而更好地理解世界模型和智能体的行为。研究人员发现，某些游戏性能的提升源于对关键视觉细节的更好建模。

DIAMOND的成功得益于EDM（Elucidating the Design Space of Diffusion-based Generative Models）框架的选择。与传统的DDPM(Denoising Diffusion Probabilistic Models)相比，EDM在较少的去噪步骤下表现出更高的稳定性，避免了模型在长时间范围内出现严重的累积误差。

此外，DIAMOND还展示了其扩散世界模型可以作为交互式神经游戏引擎的能力。通过在87小时的静态《反恐精英:全球攻势》游戏数据上进行训练，DIAMOND成功生成了一个可交互的Dust II地图神经游戏引擎。

未来，DIAMOND可以通过整合更先进的记忆机制，例如自回归Transformer，来进一步提升其性能。此外，将奖励/终止预测整合到扩散模型中也是一个值得探索的方向。

论文地址：https://arxiv.org/pdf/2405.12399

DIAMOND 的出现为强化学习领域带来了新的突破，其在 Atari 游戏和《反恐精英》游戏中的出色表现，展现了扩散模型在构建高效世界模型方面的巨大潜力。未来，随着技术的进一步发展，DIAMOND 及其衍生技术有望在更多领域得到应用，推动人工智能技术的进步。期待更多基于扩散模型的强化学习研究成果。