ดาวน์โหลด genrl - ดาวน์โหลดซอร์สโค้ด genrl

genrl

ซอร์สโค้ดอื่น ๆ

v0.0.2

ดาวน์โหลด

Genrl เป็นห้องสมุดการเรียนรู้การเสริมแรงแบบ pytorch ที่มีศูนย์กลางอยู่ที่การใช้อัลกอริทึมที่ทำซ้ำได้ทั่วไปและปรับปรุงการเข้าถึงในการเรียนรู้การเสริมแรง

การเปิดตัวปัจจุบันของ Genrl อยู่ที่ v0.0.2 คาดว่าจะมีการเปลี่ยนแปลงการเปลี่ยนแปลง

การวิจัยการเรียนรู้การเสริมแรงกำลังเคลื่อนไหวเร็วกว่าที่เคยเป็นมา เพื่อให้ทันกับแนวโน้มที่เพิ่มขึ้นและตรวจสอบให้แน่ใจว่าการวิจัย RL ยังคงทำซ้ำได้ GenRL มีจุดมุ่งหมายเพื่อช่วยในการทำซ้ำกระดาษและการเปรียบเทียบที่เร็วขึ้นโดยการให้คุณสมบัติหลักต่อไปนี้:

Pytorch-First : Modular, Extensible และ Idiomatic Python
บทเรียนและตัวอย่าง : 20+ บทช่วยสอนจาก RL พื้นฐานถึงอัลกอริทึม SOTA Deep RL (พร้อมคำอธิบาย)!
Unified Trainer and Logging Class : Code Reusability และ UI ระดับสูง
การใช้อัลกอริทึมแบบสำเร็จรูป : การใช้งานแบบสำเร็จรูปของอัลกอริทึม RL ยอดนิยม
การเปรียบเทียบที่เร็วขึ้น : การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์อัตโนมัติการใช้งานสภาพแวดล้อม ฯลฯ

ด้วยการรวมคุณสมบัติเหล่านี้เข้ากับ GenRL เรามุ่งมั่นที่จะสนับสนุน การใช้อัลกอริทึมใหม่ในที่สุดในน้อยกว่า 100 บรรทัด

หากคุณสนใจที่จะมีส่วนร่วมอย่าลังเลที่จะผ่านปัญหาและเปิด PRS สำหรับรหัสเอกสารการทดสอบ ฯลฯ ในกรณีที่มีคำถามใด ๆ โปรดตรวจสอบแนวทางการสนับสนุน

การติดตั้ง

Genrl เข้ากันได้กับ Python 3.6 หรือใหม่กว่าและขึ้นอยู่กับ pytorch และ openai-gym วิธีที่ง่ายที่สุดในการติดตั้ง GenRL คือ PIP ซึ่งเป็นตัวติดตั้งแพ็คเกจที่ต้องการของ Python

 $ pip install genrl

โปรดทราบว่า GenRL เป็นโครงการที่ใช้งานอยู่และเผยแพร่รุ่นใหม่เป็นประจำ ในการอัพเกรด GenRL เป็นเวอร์ชันล่าสุดให้ใช้ PIP ดังนี้

 $ pip install -U genrl

หากคุณตั้งใจจะติดตั้งไลบรารีเวอร์ชันล่าสุดที่ยังไม่เผยแพร่ (เช่นจากแหล่งที่มา) คุณสามารถทำได้:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

การใช้งาน

เพื่อฝึกอบรมนักแสดงที่นุ่มนวลตั้งแต่เริ่มต้นในสภาพแวดล้อม Gym Pendulum-v0 และบันทึกรางวัลบน Tensorboard

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

ในการฝึกอบรมโมเดล dyna-q แบบตารางตั้งแต่เริ่มต้นบนสภาพแวดล้อม Gym FrozenLake-v0 และผลตอบแทนพล็อต:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

บทเรียน

โจรติดอาวุธหลายตัว
- ความเชื่อมั่นส่วนบนผูกพัน
- การสุ่มตัวอย่าง Thompson
- เบย์
- การเลือกการกระทำของ Softmax
โจรบริบท
- การอนุมานด้านหลังเชิงเส้น
- การอนุมานแบบแปรปรวน
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- การสุ่มตัวอย่างเสียงรบกวนพารามิเตอร์
ภูมิหลังการเรียนรู้การเสริมแรงอย่างลึกซึ้ง
- การไล่ระดับสีวานิลลา
- นักวิจารณ์นักแสดงได้เปรียบ
- การเพิ่มประสิทธิภาพนโยบายใกล้เคียง

อัลกอริทึม

RL ลึก

DQN (Deep Q Networks)
- DQN
- dqn สองครั้ง
- ดวล DQN
- dqn ที่มีเสียงดัง
- DQN หมวดหมู่
VPG (การไล่ระดับสีวานิลลา)
A2C (Advantage Advantage Actor-Critic)
PPO (การเพิ่มประสิทธิภาพนโยบายใกล้เคียง)
DDPG (การไล่ระดับสีเชิงลึกที่กำหนดขึ้นลึก)
TD3 (DDPG ล่าช้าคู่)
SAC (นักวิจารณ์นักแสดงที่อ่อนนุ่ม)

RL คลาสสิก

ซาร์ซา
Q การเรียนรู้

Bandit RL

โจรติดอาวุธหลายตัว
- EPS โลภ
- UCB
- การสุ่มตัวอย่าง Thompson
- โจรเบย์
- Softmax Explorer
โจรบริบท
- EPS โลภ
- UCB
- การสุ่มตัวอย่าง Thompson
- โจรเบย์
- Softmax Explorer
โจรบริบทลึก
- การอนุมานการเปลี่ยนแปลง
- การสุ่มตัวอย่างเสียงรบกวนสำหรับพารามิเตอร์เครือข่ายประสาท
- Epsilon โลภด้วยเครือข่ายประสาท
- การถดถอยแบบเบย์สำหรับการอนุมานหลัง
- ชุดบู๊ต

เครดิตและห้องสมุดที่คล้ายกัน:

โรงยิม - สภาพแวดล้อม
เรย์
Openai Baselines - Logger
Baselines ที่มีเสถียรภาพ 3: Baselines ที่มั่นคงมีจุดมุ่งหมายเพื่อให้ baselines สำหรับอัลกอริทึม RL ลึก
Pytorch-A2C-PPO-ACKTR
โจรบริบทลึก

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.0.2
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-02
ขนาด 395.94KB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด