강화 학습은 낮은 샘플 효율성으로 인해 적용이 제한되지만 환경 생성 모델인 월드 모델은 이 문제를 해결할 수 있는 희망을 제공합니다. 강화 학습 에이전트를 효율적으로 훈련할 수 있지만 대부분의 세계 모델은 개별 잠재 변수 시퀀스를 사용하여 환경 역학을 시뮬레이션하므로 중요한 시각적 세부 정보가 무시될 수 있습니다. Downcodes의 편집자는 확산 모델을 사용하여 강화 학습 에이전트를 훈련하고 Atari 100k 벤치마크 테스트에서 우수한 결과를 달성한 DIAMOND(Ambient Dream Diffusion Model)에 대한 해석을 제공합니다.
현재 대부분의 세계 모델은 개별 잠재 변수 시퀀스를 통해 환경 역학을 시뮬레이션합니다. 그러나 컴팩트한 이산 표현으로 압축하는 이 방법은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있습니다.
동시에 확산 모델은 이미지 생성 분야에서 지배적인 방법이 되어 전통적인 이산 잠재 변수 모델링 방법에 도전하고 있습니다. 이에 영감을 받아 연구진은 확산 세계 모델에서 훈련된 강화 학습 에이전트인 DIAMOND(주변 꿈 확산 모델)라는 새로운 방법을 제안했습니다. DIAMOND는 장기간에 걸쳐 확산 모델의 효율성과 안정성을 보장하기 위해 주요 설계를 선택했습니다.
DIAMOND는 유명한 Atari100k 벤치마크에서 평균 인간 정규화 점수 1.46을 달성했는데, 이는 전적으로 세계 모델에 대해 교육받은 에이전트로서는 최고의 결과입니다. 또한, 이미지 공간에서 작동할 때의 장점은 확산 세계 모델이 환경을 직접 대체할 수 있어 세계 모델과 에이전트의 동작을 더 잘 이해할 수 있다는 것입니다. 연구원들은 일부 게임의 성능 향상이 주요 시각적 세부 사항의 더 나은 모델링에서 비롯된다는 사실을 발견했습니다.
DIAMOND의 성공은 EDM(Elucidating the Design Space of Diffusion-based Generative Models) 프레임워크의 선택 덕분입니다. 기존 DDPM(Denoising Diffusion Probabilistic Models)과 비교하여 EDM은 더 적은 노이즈 제거 단계로 더 높은 안정성을 보여 장기간에 걸쳐 모델의 심각한 누적 오류를 방지합니다.
또한 DIAMOND는 확산 세계 모델이 대화형 신경 게임 엔진 역할을 하는 능력을 보여주었습니다. DIAMOND는 87시간의 정적 Counter-Strike: Global Offensive 게임 데이터를 학습하여 대화형 Dust II 맵 신경 게임 엔진을 성공적으로 생성했습니다.
앞으로 DIAMOND는 자동 회귀 변환기와 같은 고급 메모리 메커니즘을 통합하여 성능을 더욱 향상시킬 수 있습니다. 또한 보상/종료 예측을 확산 모델에 통합하는 것도 살펴볼 가치가 있는 방향입니다.
논문 주소: https://arxiv.org/pdf/2405.12399
DIAMOND의 출현은 강화 학습 분야에 새로운 돌파구를 가져왔습니다. Atari 게임과 "Counter-Strike" 게임에서의 뛰어난 성능은 효율적인 세계 모델 구축에 있어 확산 모델의 큰 잠재력을 보여줍니다. 앞으로 기술이 더욱 발전함에 따라 DIAMOND 및 그 파생 기술은 더 많은 분야에 적용되어 인공지능 기술의 발전을 촉진할 것으로 기대됩니다. 확산 모델을 기반으로 한 강화학습에 대한 더 많은 연구 결과를 기대합니다.