Скачать overcooked_ai - overcooked_ai Скачать исходный код

overcooked_ai

AI Исходный код

Updated MDP Dynamics Support

Скачать

Переваренный-ИИ ?‍??

5 доступных макетов. Новые макеты легко запрограммировать или сгенерировать программно.

Введение ?

Overcooked-AI — это эталонная среда для полностью совместного выполнения задач человека и ИИ, основанная на чрезвычайно популярной видеоигре Overcooked.

Цель игры — как можно быстрее доставить супы. Для каждого супа необходимо положить до 3 ингредиентов в кастрюлю, дождаться, пока суп приготовится, а затем попросить агента забрать суп и доставить его. Агенты должны оперативно распределять задачи и эффективно координировать свои действия, чтобы добиться высокого вознаграждения.

Вы можете опробовать игру здесь (играя с ранее обученными агентами DRL). Чтобы поиграть со своими обученными агентами, используя этот интерфейс, или собрать больше данных о человеке-ИИ или человеке-человеке, вы можете использовать код здесь. Вы можете найти некоторые данные об игровом процессе «человек-человек» и «человек-ИИ», уже собранные здесь.

Реализации DRL, совместимые со средой, включены в репозиторий как подмодуль src/human_aware_rl.

Старый вариант human_aware_rl устарел и должен использоваться только для воспроизведения результатов, изложенных в статье 2019 года: «О пользе изучения людей для координации между человеком и ИИ» (см. также сообщение в нашем блоге).

Для простоты использования среды стоит рассмотреть возможность использования этой оболочки среды.

Исследовательские работы с использованием Overcooked-AI?

Кэрролл, Мика, Рохин Шах, Марк К. Хо, Томас Л. Гриффитс, Санджит А. Сешиа, Питер Аббил и Анка Драган. «О пользе изучения людей для координации между человеком и искусственным интеллектом». НейрИПС 2019.
Чаракорн, Руджикорн, Порамате Манунпонг и Нат Дилоктанакул. «Исследование методов диверсификации партнеров в совместном многоагентном глубоком обучении с подкреплением». Нейронная обработка информации. ИКОНИП 2020.
Нотт, Пол, Мика Кэрролл, Сэм Девлин, Камил Чосек, Катя Хофманн, Анка Д. Драган и Рохин Шах. «Оценка надежности совместных агентов». ААМАС 2021.
Налепка, Патрик, Джордан П. Грегори-Дансмор, Джеймс Симпсон, Гаурав Патил и Майкл Дж. Ричардсон. «Гибкость взаимодействия искусственных агентов, объединяющихся с людьми». Когши 2021.
Фонтейн, Мэтью К., Я-Чуан Сюй, Юлун Чжан, Брайон Тьянака и Стефанос Николаидис. «О важности окружающей среды в координации человека и робота» RSS 2021.
Чжао, Жуй, Цзиньмин Сун, Ху Хайфэн, Ян Гао, И Ву, Чжунцянь Сунь, Ян Вэй. «Популяционное обучение с максимальной энтропией для нулевой координации между человеком и искусственным интеллектом». Кооперативный семинар NeurIPS по искусственному интеллекту, 2021.
Саркар, Бидипта, Адити Талати, Энди Ши и Дорса Садиг. «PantheonRL: библиотека MARL для динамического обучения». АААИ 2022.
Рибейру, Жоау Г., Кассандро Мартиньо, Альберто Сардинья, Франсиско С. Мелу. «Помощь неизвестным товарищам по команде в неизвестных задачах: специальная командная работа в условиях частичной наблюдаемости».
Сихуай Ван, Шао Чжан, Вэньхао Чжан, Вэньтао Донг, Цзинсяо Чен, Ин Вэнь и Вэйнань Чжан. NeurIPS 2024. «ZSC-Eval: набор инструментов для оценки и эталон для многоагентной нулевой координации».

Установка ☑️

Установка из PyPI?

Вы можете установить предварительно скомпилированный файл колеса с помощью pip.

 pip install overcooked-ai

Обратите внимание, что выпуски PyPI стабильны, но выходят нечасто. Для получения самых современных функций разработки создайте сборку из исходного кода с помощью pip install -e . .

Сборка из исходников?

Полезно настроить среду conda с помощью Python 3.7 (virtualenv тоже работает):

 conda create -n overcooked_ai python=3.7
conda activate overcooked_ai

Клонировать репозиторий

 git clone https://github.com/HumanCompatibleAI/overcooked_ai.git

Наконец, используйте инструменты настройки Python для локальной установки.

Если вы просто хотите использовать среду:

 pip install -e .

Если вам также нужны реализации DRL (возможно, вам придется ввести это в свой терминал как pip install -e '.[harl]' ):

 pip install -e .[harl]

Проверка установки?

При сборке из исходного кода вы можете проверить установку, запустив набор модульных тестов Overcooked. Следующие команды следует запускать из корневого каталога проекта overcooked_ai :

 python testing/overcooked_test.py

Чтобы проверить, правильно ли установлен humam_aware_rl , вы можете запустить следующую команду из каталога src/human_aware_rl :

 $ ./run_tests.sh

️ Обязательно измените CWD на каталог human_aware_rl перед запуском сценария, поскольку тестовый сценарий использует CWD для динамического создания пути для сохранения временных обучающих запусков/контрольных точек. Сценарий тестирования завершится неудачей, если он будет запущен не из правильного каталога.

Это запустит все тесты, принадлежащие модулю human_aware_rl. Вы можете просмотреть README в подмодуле, чтобы получить инструкции по запуску тестов, специфичных для конкретной цели. Это можно запустить из любого каталога.

Если вы планируете широко использовать код планирования, вам следует запустить полный набор тестов, который проверит все вспомогательные инструменты Overcooked (это может занять 5–10 минут):

 python -m unittest discover -s testing/ -p "*_test.py"

Обзор структуры кода?

overcooked_ai_py содержит:

mdp/ :

overcooked_mdp.py : основная логика игры Overcooked.
overcooked_env.py : классы среды, созданные на основе Overcooked mdp.
layout_generator.py : функции для программного создания случайных макетов.

agents/ :

agent.py : расположение классов агентов.
benchmarking.py : выборка траекторий агентов (как обученных, так и планировщиков) и загрузка различных моделей.

planning/ :

planners.py : почти оптимальная логика планирования агента.
search.py : логика поиска A* и кратчайшего пути.

human_aware_rl содержит:

ppo/ :

ppo_rllib.py : основной модуль, в котором находится код для обучения агента PPO. Сюда входит совместимая с rllib оболочка для OvercookedEnv , утилиты для преобразования классов Policy rllib в Overcooked Agent , а также служебные функции и обратные вызовы.
ppo_rllib_client.py Код драйвера для настройки и запуска обучения агента. Более подробная информация об использовании ниже
ppo_rllib_from_params_client.py : обучить одного агента с помощью PPO в Overcooked с переменными MDP.
ppo_rllib_test.py Тесты воспроизводимости для локальных проверок работоспособности
run_experiments.sh Скрипт для обучения агентов на 5-ти классических раскладках
trained_example/ Предварительно обученная модель для целей тестирования

rllib/ :

rllib.py : агент rllib и обучающие утилиты, использующие Overcooked API.
utils.py : утилиты для вышеперечисленного
tests.py : предварительные тесты для вышеперечисленного.

imitation/ :

behavior_cloning_tf2.py : Модуль для обучения, сохранения и загрузки модели BC.
behavior_cloning_tf2_test.py : содержит базовые тесты воспроизводимости, а также модульные тесты для различных компонентов модуля bc.

human/ :

process_data.py для обработки человеческих данных в определенных форматах, которые будут использоваться алгоритмами DRL.
data_processing_utils.py утилиты для вышеперечисленного

utils.py : утилиты для репозитория.

overcooked_demo содержит:

server/ :

app.py : приложение Flask.
game.py : основная логика игры. Переходы между состояниями обрабатываются объектом overcooked.Gridworld, встроенным в игровую среду.
move_agents.py : скрипт, упрощающий копирование контрольных точек в каталог агентов. Инструкции по использованию можно найти внутри файла или запустив python move_agents.py -h

up.sh : сценарий оболочки для запуска сервера Docker, на котором размещена игра.

Визуализации Python?

См. этот Google Colab для примера кода для визуализации траекторий в Python.

Мы внедрили блокнот, который помогает пользователям в процессе обучения, загрузки и оценки агентов. В идеале мы хотели бы предоставить пользователям возможность запускать блокнот в Google Colab; однако, поскольку ядром Colab по умолчанию является Python 3.10, а наш репозиторий оптимизирован для Python 3.7, некоторые функции в настоящее время несовместимы с Colab. Чтобы обеспечить бесперебойную работу, мы предварительно выполнили все ячейки в блокноте, что позволяет вам просмотреть ожидаемый результат при локальном запуске после соответствующей настройки.

Overcooked_demo также может запустить интерактивную игру в браузере для визуализации. Подробности можно найти в README.

Необработанные данные?

Необработанные данные, используемые при обучении, имеют размер >100 МБ, что делает неудобным их распространение через git. Код использует маринованные фреймы данных для обучения и тестирования, но если вам нужны исходные данные, их можно найти здесь.