Обучение с подкреплением ограничивает его применение из-за низкой эффективности выборки, но модели мира как модели создания среды вселяют надежду на решение этой проблемы. Он может эффективно обучать агентов обучения с подкреплением, однако большинство мировых моделей используют дискретные последовательности скрытых переменных для моделирования динамики окружающей среды, которые могут игнорировать важные визуальные детали. Редактор Downcodes предлагает вам интерпретацию DIAMOND (Ambient Dream Diffusion Model), которая использует модель диффузии для обучения агентов обучения с подкреплением и достигла отличных результатов в эталонном тесте Atari 100k.
В настоящее время большинство мировых моделей моделируют динамику окружающей среды посредством дискретных скрытых переменных последовательностей. Однако этот метод сжатия в компактное дискретное представление может игнорировать визуальные детали, которые имеют решающее значение для обучения с подкреплением.
В то же время диффузионные модели стали доминирующим методом в области генерации изображений, бросая вызов традиционным методам моделирования дискретных скрытых переменных. Вдохновленные этим, исследователи предложили новый метод под названием DIAMOND (модель диффузии окружающего сна), который представляет собой агент обучения с подкреплением, обученный в модели диффузного мира. Компания DIAMOND приняла ключевые решения по проектированию, чтобы обеспечить эффективность и стабильность модели диффузии в течение длительных периодов времени.
DIAMOND получил средний нормированный для человека балл 1,46 в знаменитом тесте Atari100k, что является лучшим результатом для агента, полностью обученного на модели мира. Более того, преимущество работы в пространстве изображений состоит в том, что модель диффузного мира может быть прямой заменой окружающей среды, позволяя лучше понять модель мира и поведение агента. Исследователи обнаружили, что повышение производительности в некоторых играх происходит за счет лучшего моделирования ключевых визуальных деталей.
Успех DIAMOND обусловлен выбором структуры EDM (объяснение пространства проектирования генеративных моделей на основе диффузии). По сравнению с традиционными DDPM (вероятностными моделями шумоподавления и диффузии), EDM демонстрирует более высокую стабильность с меньшим количеством шагов шумоподавления, что позволяет избежать серьезных кумулятивных ошибок в модели в течение длительного периода времени.
Кроме того, DIAMOND продемонстрировала способность своей модели диффузного мира служить интерактивным нейронным игровым движком. Обучаясь 87 часов статических данных игры Counter-Strike: Global Offensive, DIAMOND успешно создал нейронный игровой движок интерактивной карты Dust II.
В будущем DIAMOND может еще больше улучшить свою производительность за счет интеграции более совершенных механизмов памяти, таких как авторегрессионные трансформаторы. Кроме того, интеграция прогнозов вознаграждения/завершения в модели диффузии также является направлением, заслуживающим изучения.
Адрес статьи: https://arxiv.org/pdf/2405.12399.
Появление DIAMOND привело к новым прорывам в области обучения с подкреплением. Его превосходная производительность в играх Atari и Counter-Strike демонстрирует большой потенциал диффузионной модели в построении эффективных моделей мира. Ожидается, что в будущем, по мере дальнейшего развития технологий, DIAMOND и производные от него технологии будут применяться в большем количестве областей и будут способствовать развитию технологий искусственного интеллекта. С нетерпением ждем новых результатов исследований по обучению с подкреплением на основе моделей диффузии.