Unduh genrl - Unduh Kode Sumber genrl

genrl

Kode sumber lainnya

v0.0.2

Unduh

Genrl adalah perpustakaan pembelajaran penguatan pytorch yang berpusat di sekitar implementasi algoritma yang dapat direproduksi dan dapat digeneralisasikan dan meningkatkan aksesibilitas dalam pembelajaran penguatan

Rilis GenRL saat ini adalah di V0.0.2. Harapkan memecahkan perubahan

Penelitian pembelajaran penguatan bergerak lebih cepat dari sebelumnya. Untuk mengikuti tren yang berkembang dan memastikan bahwa penelitian RL tetap dapat direproduksi, GenRL bertujuan untuk membantu reproduksi kertas dan pembandingan yang lebih cepat dengan memberikan fitur utama berikut:

Pytorch-First : Modular, Extensible dan Idiomatik Python
Tutorial dan Contoh : 20+ Tutorial dari RL Basic ke Algoritma Sota Deep RL (dengan Penjelasan)!
Kelas Pelatih dan Pencatatan Terpadu : Kembali Kode Ulang dan UI Tingkat Tinggi
Implementasi algoritma siap pakai : implementasi algoritma RL yang sudah jadi.
Benchmarking yang lebih cepat : Tuning hiperparameter otomatis, implementasi lingkungan dll.

Dengan mengintegrasikan fitur -fitur ini ke dalam genrl, kami bertujuan untuk akhirnya mendukung implementasi algoritma baru dalam kurang dari 100 baris .

Jika Anda tertarik untuk berkontribusi, jangan ragu untuk menjalani masalah dan membuka PRS untuk kode, dokumen, tes dll. Dalam hal pertanyaan, silakan periksa Panduan yang Berkontribusi

Instalasi

Genrl kompatibel dengan Python 3.6 atau yang lebih baru dan juga tergantung pada pytorch dan openai-gym . Cara termudah untuk menginstal GenRL adalah dengan Pip, penginstal paket Python yang disukai.

 $ pip install genrl

Perhatikan bahwa GenRL adalah proyek aktif dan secara rutin menerbitkan rilis baru. Untuk meningkatkan Genrl ke versi terbaru, gunakan PIP sebagai berikut.

 $ pip install -U genrl

Jika Anda berniat menginstal versi perpustakaan terbaru yang belum dirilis (yaitu dari sumber), Anda dapat melakukan:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

Penggunaan

Untuk melatih model aktor-kritis yang lembut dari awal di lingkungan gym Pendulum-v0 dan hadiah log di papan tensor

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

Untuk melatih model Dyna-Q Tabular dari awal di lingkungan gym FrozenLake-v0 dan Plot Rewards:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

Tutorial

Bandit multi bersenjata
- Keyakinan atas terikat
- Sampling Thompson
- Bayesian
- Seleksi Tindakan Softmax
Bandit kontekstual
- Inferensi posterior linier
- Inferensi variasional
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- Sampling noise parameter
Latar belakang pembelajaran penguatan yang mendalam
- Gradien Kebijakan Vanilla
- Kritikus Aktor keuntungan
- Optimalisasi Kebijakan Proksimal

Algoritma

Deep RL

DQN (Jaringan Q Deep)
- Dqn
- DQN ganda
- DQN Dueling
- DQN yang berisik
- DQN kategorikal
VPG (Gradien Kebijakan Vanilla)
A2C (Advantage Actor-Critic)
PPO (optimasi kebijakan proksimal)
DDPG (gradien kebijakan deterministik yang dalam)
TD3 (DDPG tertunda kembar)
SAC (kritikus aktor lunak)

RL klasik

Sarsa
Q Belajar

Bandit RL

Bandit multi bersenjata
- EPS Greedy
- UCB
- Sampling Thompson
- Bandit Bayesian
- Softmax Explorer
Bandit kontekstual
- EPS Greedy
- UCB
- Sampling Thompson
- Bandit Bayesian
- Softmax Explorer
Bandit kontekstual yang mendalam
- Inferensi variasi
- Pengambilan Sampel Kebisingan untuk Parameter Jaringan Saraf
- Epsilon Greedy dengan jaringan saraf
- Regresi Bayesian pada inferensi posterior
- Ansambel bootstrap

Kredit dan perpustakaan serupa:

Gym - Lingkungan
Sinar
Openai Baselines - Logger
Baselines yang stabil 3: Baseline yang stabil bertujuan untuk menyediakan baseline untuk algoritma RL yang dalam.
PyTorch-A2C-PPO-UCRTR
Bandit kontekstual yang mendalam

Memperluas

Informasi Tambahan

Versi v0.0.2
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-02
ukuran 395.94KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
chat.petals.dev

Kode sumber lainnya

1.0.0
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua