الهدف من هذا المشروع هو نشر عملاء التعلم المعزز العميق المدربين بواسطة مجموعة متنوعة من الخوارزميات، وتمكين تحليلهم ومقارنتهم وتصورهم بسهولة. الأمل هو تقليل الاحتكاك لإجراء مزيد من الأبحاث لفهم عوامل التعلم المعزز. يستفيد هذا المشروع من مكتبة تصور الشبكة العصبية الممتازة من Lucid، ويتكامل مع إصدار نموذج الدوبامين.
تم نشر ورقة تقدم هذا العمل في IJCAI 2019: حديقة حيوان أتاري النموذجية لتحليل عوامل التعلم المعززة العميقة وتصورها ومقارنتها.
حزمة البرامج هذه مصحوبة بإصدار ثنائي لـ (1) نماذج مجمدة تم تدريبها على ألعاب Atari من خلال مجموعة متنوعة من أساليب التعلم المعزز العميق، و(2) تجربة اللعب المخزنة مؤقتًا لهؤلاء العملاء في بيئات التدريب الخاصة بهم، والتي تتم استضافتها عبر الإنترنت.
التبعيات:
للتثبيت، قم بتشغيل setup.py install
بعد تثبيت التبعيات.
import atari_zoo
from atari_zoo import MakeAtariModel
from pylab import *
algo = "a2c"
env = "ZaxxonNoFrameskip-v4"
run_id = 1
tag = "final"
m = MakeAtariModel ( algo , env , run_id , tag )()
# get observations, frames, and ram state from a representative rollout
obs = m . get_observations ()
frames = m . get_frames ()
ram = m . get_ram ()
# visualize first layer of convolutional weights
session = atari_zoo . utils . get_session ()
m . load_graphdef ()
m . import_graph ()
conv_weights = m . get_weights ( session , 0 )
atari_zoo . utils . visualize_conv_w ( conv_weights )
show ()
من سطر الأوامر يمكنك تشغيل: python -m atari_zoo.activation_movie --algo rainbow --environment PongNoFrameskip-v4 --run_id 1 --output ./pong_rainbow1_activation.mp4
توجد أمثلة لدفاتر ملاحظات jupyter في دليل دفاتر الملاحظات والتي تقدم أمثلة إضافية حول كيفية استخدام هذه المكتبة.
يمكّنك دفتر الملاحظات colab المبدئي من الاطلاع على المكتبة دون تنزيلها وتثبيتها.
تتوفر هنا أداة لعرض مقاطع الفيديو الخاصة بالوكلاء المدربين؛ لاحظ أنه من الممكن الارتباط بمقاطع فيديو محددة، على سبيل المثال https://uber-research.github.io/atari-model-zoo/video.html?algo=apex&game=Seaquest&tag=final&run=2.
تتوفر هنا أداة لعرض مقاطع فيديو للعملاء المدربين إلى جانب تنشيطاتهم العصبية.
قمنا بتدريب أربع خوارزميات بأنفسنا:
لقد أخذنا نماذج نهائية مدربة من خوارزميتين (DQN وRainbow) من إصدار نموذج الدوبامين:
للاستشهاد بهذا العمل في المنشورات، يرجى استخدام إدخال BibTex التالي:
@inproceedings{
title = {An Atari Model Zoo for Analyzing, Visualizing, and Comparing Deep Reinforcement Learning Agents},
author = {Felipe Such, Vashish Madhavan, Rosanne Liu, Rui Wang, Pablo Castro, Yulun Li, Jiale Zhi, Ludwig Schubert, Marc G. Bellemare, Jeff Clune, Joel Lehman},
booktitle = {Proceedings of IJCAI 2019},
year = {2019},
}
للأسئلة والتعليقات والاقتراحات، أرسل بريدًا إلكترونيًا إلى [email protected].