研究遊樂場建立在 OpenAI 的 Atari Gym 之上,為實施各種強化學習演算法做好了準備。
它可以模擬以下任何遊戲:
['Asterix'、'Asteroids'、'MsPacman'、'Kaboom'、'BankHeist'、'Kangaroo'、'Skiing'、'FishingDerby'、'Krull'、'Berzerk'、'Tutankham'、'Zaxxon'、' 《冒險》、《Riverraid》、《蜈蚣》、《冒險》、《BeamRider》、《CrazyClimber》、《TimePilot》、《嘉年華》、《網球》、《Seaquest》、《保齡球》、《太空入侵者》、 《高速公路》 、「YarsRevenge」、「RoadRunner」、「JourneyEscape」、「WizardOfWor」、「Gopher」、「Breakout」、「StarGunner」、「Atlantis」、「DoubleDunk」、「Hero」、「BattleZone」、「 Solaris」、「 UpNDown'、'Frostbite'、'KungFuMaster'、'Pooyan'、'Pitfall'、'MontezumaRevenge'、'PrivateEye'、'AirRaid'、'Amidar'、'Robotank'、'DemonAttack'、'Defender' 、'NameThisGame' , 'Phoenix', 'Gravitar', 'ElevatorAction', 'Pong', 'VideoPinball', 'IceHockey', '拳擊', '突擊', '外星人', 'Qbert', 'Enduro' , 'ChopperCommand', '詹姆士龐德']
查看相應的 Medium 文章:Atari - 深度強化學習? (第 1 部分:DDQN)
該計畫的最終目標是實施和比較各種 RL 方法,並以 Atari 遊戲作為共同點。
pip install -r requirements.txt
。python atari.py --help
。 * GAMMA = 0.99
* MEMORY_SIZE = 900000
* BATCH_SIZE = 32
* TRAINING_FREQUENCY = 4
* TARGET_NETWORK_UPDATE_FREQUENCY = 40000
* MODEL_PERSISTENCE_UPDATE_FREQUENCY = 10000
* REPLAY_START_SIZE = 50000
* EXPLORATION_MAX = 1.0
* EXPLORATION_MIN = 0.1
* EXPLORATION_TEST = 0.02
* EXPLORATION_STEPS = 850000
DeepMind 的深度卷積神經網絡
* Conv2D (None, 32, 20, 20)
* Conv2D (None, 64, 9, 9)
* Conv2D (None, 64, 7, 7)
* Flatten (None, 3136)
* Dense (None, 512)
* Dense (None, 4)
Trainable params: 1,686,180
5M 步驟後(Tesla K80 GPU 上約 40 小時,2.9 GHz Intel i7 四核心 CPU 上約 90 小時):
訓練:
標準化分數 - 每個獎勵被剪裁為 (-1, 1)
測試:
人類平均: ~372
DDQN 平均值: ~479 (128%)
訓練:
標準化分數 - 每個獎勵被剪裁為 (-1, 1)
測試:
人類平均: ~28
DDQN 平均值: ~62 (221%)
訓練:
標準化分數 - 每個獎勵被剪裁為 (-1, 1)
測試:
人類平均: ~29,000
GE 平均值: 31,000 (106%)
格雷格·蘇爾馬
資料夾
吉特布
部落格