overcooked_ai Download - overcooked_ai Quellcode herunterladen

overcooked_ai

AI-Quellcode

Updated MDP Dynamics Support

Herunterladen

Overcooked-AI ?‍??

5 der verfügbaren Layouts. Neue Layouts können einfach fest codiert oder programmgesteuert generiert werden.

Einführung ?

Overcooked-AI ist eine Benchmark-Umgebung für die vollständig kooperative Aufgabenausführung von Mensch und KI, basierend auf dem äußerst beliebten Videospiel Overcooked.

Ziel des Spiels ist es, Suppen so schnell wie möglich auszuliefern. Für jede Suppe müssen bis zu drei Zutaten in einen Topf gegeben, darauf gewartet werden, dass die Suppe kocht, und dann von einem Agenten abgeholt und geliefert werden. Die Agenten sollten Aufgaben spontan aufteilen und effektiv koordinieren, um eine hohe Belohnung zu erzielen.

Sie können das Spiel hier ausprobieren (spielen Sie mit einigen zuvor ausgebildeten DRL-Agenten). Um mit Ihren eigenen geschulten Agenten über diese Schnittstelle zu spielen oder mehr Mensch-KI- oder Mensch-Mensch-Daten zu sammeln, können Sie den Code hier verwenden. Hier finden Sie einige bereits gesammelte Mensch-Mensch- und Mensch-KI-Gameplay-Daten.

Mit der Umgebung kompatible DRL-Implementierungen sind im Repo als Submodul unter src/human_aware_rl enthalten.

Das alte human_aware_rl ist veraltet und sollte nur zur Reproduktion der Ergebnisse im Papier von 2019 verwendet werden: „On the Utility of Learning about Humans for Human-AI Coordination“ (siehe auch unseren Blogbeitrag).

Für eine einfache Nutzung der Umgebung lohnt es sich, über die Verwendung dieses Umgebungs-Wrappers nachzudenken.

Forschungsarbeiten mit Overcooked-AI?

Carroll, Micah, Rohin Shah, Mark K. Ho, Thomas L. Griffiths, Sanjit A. Seshia, Pieter Abbeel und Anca Dragan. „Über den Nutzen des Lernens über Menschen für die Mensch-KI-Koordination.“ NeurIPS 2019.
Charakorn, Rujikorn, Poramate Manoonpong und Nat Dilokthanakul. „Untersuchung von Partnerdiversifizierungsmethoden beim kooperativen Deep Reinforcement Learning mit mehreren Agenten.“ Neuronale Informationsverarbeitung. ICONIP 2020.
Knott, Paul, Micah Carroll, Sam Devlin, Kamil Ciosek, Katja Hofmann, Anca D. Dragan und Rohin Shah. „Bewertung der Robustheit kollaborativer Agenten.“ AAMAS 2021.
Nalepka, Patrick, Jordan P. Gregory-Dunsmore, James Simpson, Gaurav Patil und Michael J. Richardson. „Interaktionsflexibilität bei der Zusammenarbeit künstlicher Agenten mit Menschen.“ Cogsci 2021.
Fontaine, Matthew C., Ya-Chuan Hsu, Yulun Zhang, Bryon Tjanaka und Stefanos Nikolaidis. „Zur Bedeutung von Umgebungen für die Mensch-Roboter-Koordination“ RSS 2021.
Zhao, Rui, Jinming Song, Hu Haifeng, Yang Gao, Yi Wu, Zhongqian Sun, Yang Wei. „Maximum Entropy Population Based Training for Zero-Shot Human-AI Coordination“. NeurIPS Cooperative AI Workshop, 2021.
Sarkar, Bidipta, Aditi Talati, Andy Shih und Dorsa Sadigh. „PantheonRL: Eine MARL-Bibliothek für dynamische Trainingsinteraktionen“. AAAI 2022.
Ribeiro, João G., Cassandro Martinho, Alberto Sardinha, Francisco S. Melo. „Unterstützung unbekannter Teamkollegen bei unbekannten Aufgaben: Ad-hoc-Teamarbeit unter teilweiser Beobachtbarkeit“.
Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen und Weinan Zhang. NeurIPS 2024. „ZSC-Eval: Ein Evaluierungs-Toolkit und Benchmark für die Zero-Shot-Koordination mit mehreren Agenten“.

Installation ☑️

Von PyPI installieren?

Sie können die vorkompilierte Raddatei mit pip installieren.

 pip install overcooked-ai

Beachten Sie, dass PyPI-Veröffentlichungen stabil, aber selten sind. Für die aktuellsten Entwicklungsfunktionen erstellen Sie mit pip install -e . .

Aus der Quelle bauen?

Es ist nützlich, eine Conda-Umgebung mit Python 3.7 einzurichten (virtualenv funktioniert auch):

 conda create -n overcooked_ai python=3.7
conda activate overcooked_ai

Klonen Sie das Repo

 git clone https://github.com/HumanCompatibleAI/overcooked_ai.git

Verwenden Sie abschließend die Python-Setup-Tools für die lokale Installation

Wenn Sie nur die Umgebung nutzen möchten:

 pip install -e .

Wenn Sie auch die DRL-Implementierungen benötigen (möglicherweise müssen Sie dies in Ihrem Terminal als pip install -e '.[harl]' eingeben):

 pip install -e .[harl]

Installation überprüfen?

Wenn Sie aus dem Quellcode erstellen, können Sie die Installation überprüfen, indem Sie die Unit-Testsuite Overcooked ausführen. Die folgenden Befehle sollten alle im Stammverzeichnis des Projekts overcooked_ai ausgeführt werden:

 python testing/overcooked_test.py

Um zu überprüfen, ob humam_aware_rl korrekt installiert ist, können Sie den folgenden Befehl aus dem Verzeichnis src/human_aware_rl ausführen:

 $ ./run_tests.sh

️ Stellen Sie sicher, dass Sie Ihr CWD in das Verzeichnis „human_aware_rl“ ändern, bevor Sie das Skript ausführen, da das Testskript das CWD verwendet, um dynamisch einen Pfad zum Speichern temporärer Trainingsläufe/Prüfpunkte zu generieren. Das Testskript schlägt fehl, wenn es nicht im richtigen Verzeichnis ausgeführt wird.

Dadurch werden alle Tests ausgeführt, die zum Modul human_aware_rl gehören. Anweisungen zum Ausführen zielspezifischer Tests finden Sie in der README-Datei im Submodul. Dies kann von jedem Verzeichnis aus initiiert werden.

Wenn Sie den Planungscode ausgiebig nutzen möchten, sollten Sie die vollständige Testsuite ausführen, die alle Overcooked-Zubehörtools überprüft (dies kann 5–10 Minuten dauern):

 python -m unittest discover -s testing/ -p "*_test.py"

Übersicht über die Codestruktur?

overcooked_ai_py enthält:

mdp/ :

overcooked_mdp.py : Hauptlogik des Overcooked-Spiels
overcooked_env.py : Umgebungsklassen, die auf dem Overcooked-mdp basieren
layout_generator.py : Funktionen zum programmgesteuerten Generieren zufälliger Layouts

agents/ :

agent.py : Speicherort der Agentenklassen
benchmarking.py : Beispielverläufe von Agenten (sowohl geschulte als auch Planer) und Laden verschiedener Modelle

planning/ :

planners.py : Nahezu optimale Agentenplanungslogik
search.py : A*-Suche und Logik für den kürzesten Weg

human_aware_rl enthält:

ppo/ :

ppo_rllib.py : Primärmodul, in dem sich Code zum Trainieren eines PPO-Agenten befindet. Dazu gehören ein rllib-kompatibler Wrapper für OvercookedEnv , Dienstprogramme zum Konvertieren von rllib- Policy in Overcooked Agent sowie Dienstprogrammfunktionen und Rückrufe
ppo_rllib_client.py Treibercode zum Konfigurieren und Starten des Trainings eines Agenten. Weitere Einzelheiten zur Nutzung finden Sie weiter unten
ppo_rllib_from_params_client.py : Trainieren Sie einen Agenten mit PPO in Overcooked mit variablen MDPs
ppo_rllib_test.py Reproduzierbarkeitstests für lokale Plausibilitätsprüfungen
run_experiments.sh Skript zum Trainieren von Agenten auf 5 klassischen Layouts
trained_example/ Vorab trainiertes Modell für Testzwecke

rllib/ :

rllib.py : rllib-Agent und Trainings-Utils, die Overcooked APIs nutzen
utils.py : Utils für das oben Genannte
tests.py : Vorläufige Tests für das oben Genannte

imitation/ :

behavior_cloning_tf2.py : Modul zum Trainieren, Speichern und Laden eines BC-Modells
behavior_cloning_tf2_test.py : Enthält grundlegende Reproduzierbarkeitstests sowie Komponententests für die verschiedenen Komponenten des BC-Moduls.

human/ :

Skript process_data.py zur Verarbeitung menschlicher Daten in bestimmten Formaten, die von DRL-Algorithmen verwendet werden sollen
data_processing_utils.py Hilfsprogramme für die oben genannten

utils.py : Utils für das Repo

overcooked_demo enthält:

server/ :

app.py : Die Flask-App
game.py : Die Hauptlogik des Spiels. Zustandsübergänge werden vom overcooked.Gridworld-Objekt verarbeitet, das in die Spielumgebung eingebettet ist
move_agents.py : Ein Skript, das das Kopieren von Prüfpunkten in das Agentenverzeichnis vereinfacht. Anweisungen zur Verwendung finden Sie in der Datei oder durch Ausführen von python move_agents.py -h

up.sh : Shell-Skript zum Hochfahren des Docker-Servers, der das Spiel hostet

Python-Visualisierungen?

In diesem Google Colab finden Sie Beispielcode zur Visualisierung von Trajektorien in Python.

Wir haben ein Notizbuch integriert, das Benutzer durch den Prozess der Schulung, Beladung und Bewertung von Agenten führt. Idealerweise möchten wir Benutzern ermöglichen, das Notebook in Google Colab auszuführen; Da Colabs Standardkernel jedoch Python 3.10 ist und unser Repository für Python 3.7 optimiert ist, sind einige Funktionen derzeit nicht mit Colab kompatibel. Um ein nahtloses Erlebnis zu bieten, haben wir alle Zellen im Notebook vorab ausgeführt, sodass Sie die erwartete Ausgabe sehen können, wenn Sie es lokal nach dem entsprechenden Setup ausführen.

Overcooked_demo kann zur Visualisierung auch ein interaktives Spiel im Browser starten. Einzelheiten finden Sie in der README-Datei

Rohdaten?

Die im Training verwendeten Rohdaten sind >100 MB, was die Verteilung über Git unpraktisch macht. Der Code verwendet eingelegte Datenrahmen für Training und Tests. Falls Sie jedoch Originaldaten benötigen, finden Sie diese hier