В этой статье представлен новый метод обучения подкрепления под названием Diamond, который использует диффузионные модели для создания мировых моделей для повышения эффективности выборки. Неэффективная выборка традиционных методов обучения подкреплению ограничивает их применение в реальном мире, и бриллиант эффективно решает эту проблему путем обучения обучающему обучению агентов обучения в модели диффузионного мира. Diamond добился замечательных результатов в эталонном эталоне Atari 100K и продемонстрировал свой потенциал в качестве интерактивного нейронного игрового двигателя.
Подкрепление обучения достигло многих успехов в последние годы, но его неэффективность в размере выборки ограничивает его применение в реальном мире. Мировая модель, как модель генерации окружающей среды, дает надежду на решение этой проблемы. Он может выступать в качестве среды моделирования для обучения подкрепления агентов обучения с более высокой эффективностью выборки.
В настоящее время большинство мировых моделей моделируют динамику окружающей среды через дискретные последовательности скрытых переменных. Однако этот метод сжатия в компактные дискретные представления может игнорировать визуальные детали, которые имеют решающее значение для подкрепления обучения.
В то же время, диффузионные модели стали доминирующим методом в области генерации изображений, бросая вызов традиционному методу моделирования с отдельной скрытой переменной. Вдохновленный этим, исследователи предложили новый подход под названием Diamond (модель диффузии экологической мечты), агент обучения подкреплению, обученный диффузионной мировой модели. Diamond сделал ключевые варианты в дизайне, чтобы обеспечить эффективные и стабильные диффузионные модели в течение длительного периода времени.
Diamond набрал средний балл по стандартизации человека 1,46 в знаменитом эталоне Atari100K, что является лучшим результатом для агентов, обученных исключительно в мировой модели. Кроме того, преимущество работы в пространстве изображений заключается в том, что диффузионная мировая модель может напрямую заменить окружающую среду, тем самым лучше понимать поведение мировой модели и агентов. Исследователи обнаружили, что некоторые улучшения производительности игры связаны с лучшим моделированием ключевых визуальных деталей.
Успех Diamond обусловлено выбором EDM (выяснение пространства дизайна генеративных моделей на основе диффузии). По сравнению с традиционными DDPM (вероятностными моделями диффузии) EDM демонстрирует более высокую стабильность с меньшим количеством стадий двойной, избегая серьезных кумулятивных ошибок в модели в течение длительного периода времени.
Кроме того, Diamond также демонстрирует способность своей диффузионной мировой модели быть интерактивным двигателем нейронной игры. Обучаясь на 87 часов статической встречной удар: глобальные данные о оскорбительных играх, Diamond успешно сгенерировал интерактивный двигатель Dust II Map Neural Game Game.
В будущем Diamond может дополнительно улучшить свою производительность, интегрируя более продвинутые механизмы памяти, такие как авторегрессивный трансформатор. Кроме того, интеграция прогнозов вознаграждения/завершения в диффузионную модель также является направлением, которое стоит изучить.
Бумажный адрес: https://arxiv.org/pdf/2405.12399
Таким образом, Diamond предоставляет новое решение проблемы эффективности эффективности образца обучения подкрепления, а его успешное применение в игровой области демонстрирует его огромный потенциал. На будущее направление исследований стоит обратить внимание, и я считаю, что Diamond продолжит продвигать развитие области обучения подкрепления.