이 기사는 Diamond라는 새로운 강화 학습 방법을 소개합니다. Diamond는 확산 모델을 사용하여 세계 모델을 구축하여 샘플 효율성을 향상시킵니다. 전통적인 강화 학습 방법의 비효율적 인 샘플은 실제 세계에서의 적용을 제한하고, Diamond는 확산 세계 모델에서 강화 학습 에이전트를 훈련 시켜이 문제를 효과적으로 해결합니다. 다이아몬드는 Atari 100K 벤치 마크에서 놀라운 결과를 얻었으며 대화식 신경 게임 엔진으로서의 잠재력을 보여주었습니다.
강화 학습은 최근 몇 년 동안 많은 성공을 거두었지만 표본 크기의 비 효율성은 실제 세계에서의 적용을 제한합니다. 환경 세대 모델로서 세계 모델은이 문제를 해결하기위한 희망을 제공합니다. 시료 효율성이 높은 강화 학습 에이전트를 훈련시키는 시뮬레이션 환경 역할을 할 수 있습니다.
현재 대부분의 세계 모델은 잠재 변수의 개별 시퀀스를 통해 환경 역학을 시뮬레이션합니다. 그러나이 개별 표현으로 압축하는이 방법은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있습니다.
동시에, 확산 모델은 이미지 생성 분야에서 지배적 인 방법이되어 전통적인 이산 잠재 변수 모델링 방법에 도전했다. 이에 영감을 얻은 연구원들은 확산 세계 모델에서 훈련 된 강화 학습 에이전트 인 Diamond (Environmental Dream Diffusion Model)라는 새로운 접근법을 제안했습니다. 다이아몬드는 오랜 시간 동안 효율적이고 안정적인 확산 모델을 보장하기 위해 디자인에서 핵심 선택을했습니다.
다이아몬드는 유명한 ATARI100K 벤치 마크에서 평균 인간 표준화 점수 1.46을 기록했는데, 이는 세계 모델에서 전적으로 훈련 된 에이전트의 최고 점수입니다. 또한 이미지 공간에서 작동의 장점은 확산 세계 모델이 환경을 직접 대체하여 세계 모델과 에이전트의 행동을 더 잘 이해할 수 있다는 것입니다. 연구원들은 일부 게임 성능 향상이 주요 시각적 세부 사항을 더 잘 모델링함으로써 발생한다는 것을 발견했습니다.
다이아몬드의 성공은 EDM (확산 기반 생성 모델의 설계 공간을 설명) 프레임 워크의 선택 때문입니다. 기존의 DDPM (비난 확산 확률 모델)과 비교할 때 EDM은 대출 단계가 적어 오랜 기간 동안 모델의 심각한 누적 오류를 피하면서 더 높은 안정성을 나타냅니다.
또한 Diamond는 확산 세계 모델이 대화식 신경 게임 엔진이 될 수있는 능력을 보여줍니다. 다이아몬드는 87 시간의 정적 카운터 스트라이크 : 글로벌 공격 게임 데이터에 대한 교육을 통해 대화식 먼지 II지도 신경 게임 엔진을 성공적으로 생성했습니다.
앞으로 Diamond는 자동 회귀 변압기와 같은 고급 메모리 메커니즘을 통합하여 성능을 더욱 향상시킬 수 있습니다. 또한, 보상/종료 예측을 확산 모델에 통합하는 것도 탐색 할 가치가있는 방향입니다.
종이 주소 : https://arxiv.org/pdf/2405.12399
요약하면 Diamond는 강화 학습의 샘플 효율성 문제에 대한 새로운 솔루션을 제공하며 게임 분야에서의 성공적인 응용 프로그램은 큰 잠재력을 보여줍니다. 미래의 연구 방향은주의를 기울일 가치가 있으며, 다이아몬드가 강화 학습 분야의 개발을 계속 촉진 할 것이라고 생각합니다.