基於深度強化學習的 SSBM 播放器。
注意:該項目不再活躍,並且可能會發生位元腐爛。 https://github.com/vladfi1/slippi-ai 有一個基於 slippi 回放模仿學習的後續專案。
測試環境:Ubuntu >=14.04、OSX、Windows 7/8/10。
pip install -e .
。agents
目錄中。此處提供全套訓練有素的代理。 您需要知道海豚所在的位置。在 Mac 上,海豚路徑將為/Applications/Dolphin.app/Contents/MacOS/Dolphin
。如果dolphin-emu
已經在你的PATH
上,那麼你可以忽略它。
python3 phillip/run.py --gui --human --start 0 --reload 0 --epsilon 0 --load agents/FalconFalconBF --iso /path/to/SSBM.iso --exe /path/to/dolphin [--windows]
經過訓練的代理程式儲存在agents
目錄中。除了FalconFalconBF
之外, agents/delay0/
中的代理人也相當強大。使用--help
運行以查看所有選項。最好的類人代理是delay18/FalcoBF
,可以在Google Drive zip 中找到。
--exe
將是您解壓縮的Binaryx64Dolphin.exe
的路徑。一般來說,所有路徑的forward /
s 都應該是back
s,除非您使用的是MinGW、Cygwin、git bash 或其他一些unix shell 模擬器。python3
和pip3
等命令中省略3
。--tcp 1
標誌啟用(現在由--windows
暗示)。您可能還需要在防火牆中開啟連接埠 5555。--user tmp
傳遞明確使用者目錄(python 建立的暫存目錄以/tmp/...
開頭,對 windows dolphin 無效)。 訓練由phillip/train.py
控制。另請參閱runner.py
和launcher.py
在 slurm 叢集上進行大規模並行訓練。菲利普曾在 MGHPCC 接受過訓練。建議使用自訂海豚進行訓練,海豚使用 zmq 與 AI 同步 - 否則以下命令可能會失敗。
也可以進行本地培訓。首先,使用所需的訓練參數編輯runner.py
(進階)。然後做:
python3 runner.py # will output a path
python3 launcher.py saves/path/ --init --local [--agents number_of_agents] [--log_agents]
若要查看訓練期間的統計資料:
tensorboard --logdir logs/
培訓師和(可選)代理將其 stdout/err 重定向到slurm_logs/
。結束訓練:
kill $(cat saves/path/pids)
若要恢復訓練,請再次執行launcher.py
,但省略--init
(它將覆蓋您的舊網路)。
不支援在 Windows 上進行培訓。
感謝 microsoftv,現在還有一個教學影片!
來不和諧吧!
我一直在 http://twitch.tv/x_pilot 上直播練習賽。我的 YouTube 頻道上也有一些錄音。
非常感謝 altf4 讓我入門,並感謝 spxtr 提供的 python 內存觀察器。海豚互動的一些程式碼是從這兩個項目借用的(現在我已經切換到純Python,主要是後者)。