คอลเลกชันของเกมจำลองแบบขนานที่เร่งด้วย GPU สำหรับการเรียนรู้แบบเสริมกำลัง (RL)
บันทึก
หากคุณพบว่าโครงการนี้มีประโยชน์ เราจะขอบคุณสำหรับการสนับสนุนของคุณผ่านดาว GitHub เพื่อช่วยให้ชุมชนของเราเติบโตและกระตุ้นให้เกิดการพัฒนาต่อไป!
v1
"tic_tac_toe"
v0
แต่ละสภาพแวดล้อมได้รับการกำหนดเวอร์ชัน และเวอร์ชันจะเพิ่มขึ้นเมื่อมีการเปลี่ยนแปลงที่ส่งผลต่อประสิทธิภาพของเอเจนต์ หรือเมื่อมีการเปลี่ยนแปลงที่เข้ากันไม่ได้กับ API แบบย้อนหลัง หากคุณต้องการดำเนินการทำซ้ำได้อย่างสมบูรณ์ เราขอแนะนำให้คุณตรวจสอบเวอร์ชันของ Pgx และแต่ละสภาพแวดล้อมดังต่อไปนี้:
> >> pgx . __version__
'1.0.0'
> >> env . version
'v0'
Pgx มีวัตถุประสงค์เพื่อเสริม สภาพแวดล้อม JAX-native เหล่านี้ด้วยชุดเกมกระดาน (คลาสสิก):
การรวม Pgx เข้ากับ อัลกอริธึม/การใช้งาน JAX-native เหล่านี้อาจเป็นทิศทางที่น่าสนใจ:
ในปัจจุบัน สภาพแวดล้อมบางอย่าง เช่น Go และหมากรุก ทำงานได้ไม่ดีบน TPU โปรดใช้ GPU แทน
หากคุณใช้ Pgx ในงานของคุณ โปรดอ้างอิงเอกสารของเรา:
@inproceedings{koyamada2023pgx,
title={Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning},
author={Koyamada, Sotetsu and Okano, Shinri and Nishimori, Soichiro and Murata, Yu and Habara, Keigo and Kita, Haruka and Ishii, Shin},
booktitle={Advances in Neural Information Processing Systems},
pages={45716--45743},
volume={36},
year={2023}
}
อาปาเช่-2.0