ผู้เล่น SSBM ที่ใช้การเรียนรู้การเสริมกำลังเชิงลึก
หมายเหตุ: โปรเจ็กต์นี้ไม่ได้ใช้งานอีกต่อไปและอาจเกิดบิตเน่าได้ มีโปรเจ็กต์ที่สืบทอดมาจากการเรียนรู้การเลียนแบบจากการเล่นซ้ำ Slippi ที่ https://github.com/vladfi1/lippi-ai
ทดสอบบน: Ubuntu >=14.04, OSX, Windows 7/8/10
pip install -e .
-agents
ตัวแทนที่ผ่านการฝึกอบรมครบชุดมีอยู่ที่นี่ คุณจะต้องรู้ว่าปลาโลมาอยู่ที่ไหน บน Mac เส้นทางของปลาโลมาจะเป็น /Applications/Dolphin.app/Contents/MacOS/Dolphin
หาก dolphin-emu
อยู่บน PATH
ของคุณแล้ว คุณสามารถละเว้นสิ่งนี้ได้
python3 phillip/run.py --gui --human --start 0 --reload 0 --epsilon 0 --load agents/FalconFalconBF --iso /path/to/SSBM.iso --exe /path/to/dolphin [--windows]
ตัวแทนที่ได้รับการฝึกอบรมจะถูกจัดเก็บไว้ในไดเร็กทอรี agents
นอกเหนือจาก FalconFalconBF
แล้ว เอเจนต์ใน agents/delay0/
ก็ค่อนข้างแข็งแกร่งเช่นกัน รันด้วย --help
เพื่อดูตัวเลือกทั้งหมด เอเจนต์ที่เหมือนมนุษย์ที่ดีที่สุดคือ delay18/FalcoBF
ซึ่งมีอยู่ในไฟล์ ZIP ของ Google Drive
--exe
จะเป็นเส้นทางไปยัง Binaryx64Dolphin.exe
ที่คุณคลายซิป โดยทั่วไปแล้ว การส่งต่อ /
s ควรอยู่ด้านหลัง
s สำหรับทุกพาธ เว้นแต่ว่าคุณกำลังใช้ MinGW, Cygwin, git bash หรือโปรแกรมจำลองเชลล์ยูนิกซ์อื่น ๆ3
คำสั่งดังกล่าวออกจากคำสั่งเช่น python3
และ pip3
--tcp 1
(ตอนนี้บอกเป็นนัยโดย --windows
) คุณอาจต้องเปิดพอร์ต 5555 ในไฟร์วอลล์ของคุณ--user tmp
(ไดเร็กทอรีชั่วคราวที่ python สร้างขึ้นเริ่มต้นด้วย /tmp/...
และไม่สามารถใช้กับ windows Dolphin) ควบคุมการฝึกอบรมโดย phillip/train.py
ดูเพิ่มเติมที่ runner.py
และ launcher.py
สำหรับการฝึกแบบขนานจำนวนมากบนกลุ่มสเลม ฟิลลิปได้รับการฝึกอบรมที่ MGHPCC ขอแนะนำให้ฝึกกับโลมาแบบกำหนดเองซึ่งใช้ zmq เพื่อซิงโครไนซ์กับ AI - มิฉะนั้นคำสั่งด้านล่างอาจล้มเหลว
การฝึกอบรมในท้องถิ่นก็เป็นไปได้เช่นกัน ขั้นแรก แก้ไข runner.py
ด้วยพารามิเตอร์การฝึกที่คุณต้องการ (ขั้นสูง) จากนั้นทำ:
python3 runner.py # will output a path
python3 launcher.py saves/path/ --init --local [--agents number_of_agents] [--log_agents]
หากต้องการดูสถิติระหว่างการฝึก:
tensorboard --logdir logs/
ผู้ฝึกสอนและตัวแทน (เป็นทางเลือก) เปลี่ยนเส้นทาง stdout/err ไปที่ slurm_logs/
หากต้องการสิ้นสุดการฝึกอบรม:
kill $(cat saves/path/pids)
หากต้องการฝึกต่อ ให้รัน launcher.py
อีกครั้ง แต่ไม่ต้องใส่ --init
(มันจะเขียนทับเครือข่ายเก่าของคุณ)
ไม่รองรับการฝึกอบรมบน Windows
ขอบคุณ microsoftv ที่ตอนนี้มีวิดีโอแนะนำเช่นกัน!
มาที่ดิสคอร์ด!
ฉันได้สตรีมการฝึกซ้อมการเล่นที่ http://twitch.tv/x_pilot นอกจากนี้ยังมีการบันทึกบางส่วนในช่อง YouTube ของฉัน
ขอบคุณมากสำหรับ altf4 ที่ทำให้ฉันเริ่มต้นและสำหรับ spxtr สำหรับผู้เฝ้าดูหน่วยความจำหลาม โค้ดบางส่วนสำหรับการโต้ตอบกับโลมาถูกยืมมาจากทั้งสองโปรเจ็กต์ (ส่วนใหญ่เป็นอันหลังตอนนี้ที่ฉันเปลี่ยนมาใช้ python บริสุทธิ์)