จุดมุ่งหมายของโครงการนี้คือเพื่อเผยแพร่ตัวแทนการเรียนรู้แบบเสริมกำลังเชิงลึกที่ได้รับการฝึกอบรมโดยอัลกอริธึมที่หลากหลาย และเพื่อให้สามารถวิเคราะห์ เปรียบเทียบ และแสดงภาพได้อย่างง่ายดาย ความหวังคือการลดความขัดแย้งเพื่อการวิจัยเพิ่มเติมเพื่อทำความเข้าใจตัวแทนการเรียนรู้แบบเสริมกำลัง โปรเจ็กต์นี้ใช้ประโยชน์จากไลบรารีการแสดงภาพเครือข่ายประสาทเทียม Lucid ที่ยอดเยี่ยม และผสานรวมกับการเปิดตัวโมเดลโดปามีน
บทความแนะนำงานนี้ได้รับการตีพิมพ์ที่ IJCAI 2019: An Atari Model Zoo for Analyzing, Visualizing, and Comparing Deep Reinforcement Learning Agents
แพคเกจซอฟต์แวร์นี้มาพร้อมกับการเปิดตัวไบนารีของ (1) โมเดลแช่แข็งที่ได้รับการฝึกในเกม Atari โดยวิธีการเรียนรู้แบบเสริมกำลังเชิงลึกที่หลากหลาย และ (2) ประสบการณ์การเล่นเกมที่แคชไว้ของตัวแทนเหล่านั้นในสภาพแวดล้อมการฝึกอบรมซึ่งโฮสต์ออนไลน์
การพึ่งพา:
หากต้องการติดตั้ง ให้รัน setup.py install
หลังจากติดตั้งการขึ้นต่อกัน
import atari_zoo
from atari_zoo import MakeAtariModel
from pylab import *
algo = "a2c"
env = "ZaxxonNoFrameskip-v4"
run_id = 1
tag = "final"
m = MakeAtariModel ( algo , env , run_id , tag )()
# get observations, frames, and ram state from a representative rollout
obs = m . get_observations ()
frames = m . get_frames ()
ram = m . get_ram ()
# visualize first layer of convolutional weights
session = atari_zoo . utils . get_session ()
m . load_graphdef ()
m . import_graph ()
conv_weights = m . get_weights ( session , 0 )
atari_zoo . utils . visualize_conv_w ( conv_weights )
show ()
จากบรรทัดคำสั่งคุณสามารถเรียกใช้: python -m atari_zoo.activation_movie --algo rainbow --environment PongNoFrameskip-v4 --run_id 1 --output ./pong_rainbow1_activation.mp4
ตัวอย่างสมุดบันทึก jupyter อยู่ในไดเร็กทอรีสมุดบันทึกที่ให้ตัวอย่างเพิ่มเติมเกี่ยวกับวิธีการใช้ไลบรารีนี้
สมุดบันทึก Colab เริ่มต้นช่วยให้คุณตรวจสอบไลบรารีได้โดยไม่ต้องดาวน์โหลดและติดตั้ง
เครื่องมือสำหรับการดูวิดีโอของตัวแทนที่ได้รับการฝึกอบรมมีอยู่ที่นี่ โปรดทราบว่าคุณสามารถลิงก์ไปยังวิดีโอบางรายการได้ เช่น https://uber-research.github.io/atari-model-zoo/video.html?algo=apex&game=Seaquest&tag=final&run=2
เครื่องมือสำหรับการดูวิดีโอของเจ้าหน้าที่ที่ได้รับการฝึกอบรมควบคู่ไปกับการเปิดใช้งานระบบประสาทมีอยู่ที่นี่
เราฝึกฝนอัลกอริธึมสี่ตัวด้วยตัวเราเอง:
เราใช้โมเดลสุดท้ายที่ผ่านการฝึกอบรมจากสองอัลกอริธึม (DQN และ Rainbow) จากการเปิดตัวโมเดล Dopamine:
หากต้องการอ้างอิงงานนี้ในสื่อสิ่งพิมพ์ โปรดใช้รายการ BibTex ต่อไปนี้:
@inproceedings{
title = {An Atari Model Zoo for Analyzing, Visualizing, and Comparing Deep Reinforcement Learning Agents},
author = {Felipe Such, Vashish Madhavan, Rosanne Liu, Rui Wang, Pablo Castro, Yulun Li, Jiale Zhi, Ludwig Schubert, Marc G. Bellemare, Jeff Clune, Joel Lehman},
booktitle = {Proceedings of IJCAI 2019},
year = {2019},
}
หากมีคำถาม ความคิดเห็น และข้อเสนอแนะ โปรดส่งอีเมลไปที่ [email protected]