Unduhan Deep RL Keras Deep RL Keras

Deep RL Keras

Kode sumber lainnya

1.0.0

Unduh

Pembelajaran penguatan yang mendalam di keras

Implementasi modular algoritma pembelajaran penguatan mendalam populer di KERAS:

Sinkron N-Langkah Advantage Aktor Kritik (A2C)
Asynchronous N-Step Advantage Actor-Critic (A3C)
Gradien kebijakan deterministik mendalam dengan noise parameter (ddpg)
Double Deep Q-Network (DDQN)
Double Deep Q-Network Dengan Pengalaman Prioritas Replay (DDQN + Per)
Dueling ddqn (d3qn)

Memulai

Implementasi ini membutuhkan keras 2.1.6, serta gym openai.

$ pip install gym keras==2.1.6

Algoritma aktor-kritik

Kritik Aktor N-Langkah Advantage (A2C)

Algoritma aktor-kritik adalah metode yang bebas model, di luar kebijakan di mana kritikus bertindak sebagai perkiraan nilai-fungsi, dan aktor sebagai perkiraan fungsi kebijakan. Saat berlatih, kritikus memprediksi TD-error dan memandu pembelajaran baik itu sendiri dan aktor. Dalam praktiknya, kami memperkirakan TD-error menggunakan fungsi Advantage. Untuk stabilitas yang lebih, kami menggunakan tulang punggung komputasi bersama di kedua jaringan, serta formulasi N-langkah dari imbalan diskon. Kami juga memasukkan istilah regularisasi entropi (pembelajaran "lunak") untuk mendorong eksplorasi. Sementara A2C sederhana dan efisien, menjalankannya pada game Atari dengan cepat menjadi tidak dapat dipecahkan karena waktu perhitungan yang lama.

N-Step Asynchronous Advantage Actor Critic (A3C)

Dengan cara yang sama dengan algoritma A2C, implementasi A3C menggabungkan pembaruan berat badan asinkron, memungkinkan untuk perhitungan yang lebih cepat. Kami menggunakan banyak agen untuk melakukan pendakian gradien secara asinkron, melalui beberapa utas. Kami menguji A3C di lingkungan pelarian Atari.

Gradien kebijakan deterministik mendalam (DDPG)

Algoritma DDPG adalah algoritma yang bebas model, di luar kebijakan untuk ruang aksi kontinu. Demikian pula dengan A2C, ini adalah algoritma aktor-kritik di mana aktor dilatih pada kebijakan target deterministik, dan kritikus memprediksi nilai-Q. Untuk mengurangi varians dan meningkatkan stabilitas, kami menggunakan replay pengalaman dan memisahkan jaringan target. Selain itu, seperti yang diisyaratkan oleh Openai, kami mendorong eksplorasi melalui kebisingan ruang parameter (sebagai lawan dari kebisingan ruang aksi tradisional). Kami menguji DDPG di lingkungan Lunar Lander.

Berlari

$ python3 main.py --type A2C --env CartPole-v1
$ python3 main.py --type A3C --env CartPole-v1 --nb_episodes 10000 --n_threads 16
$ python3 main.py --type A3C --env BreakoutNoFrameskip-v4 --is_atari --nb_episodes 10000 --n_threads 16
$ python3 main.py --type DDPG --env LunarLanderContinuous-v2

Algoritma Q-Learning yang dalam

Double Deep Q-Network (DDQN)

Algoritma DQN adalah algoritma q-learning, yang menggunakan jaringan saraf yang dalam sebagai perkiraan fungsi nilai-Q. Kami memperkirakan target nilai-Q dengan memanfaatkan persamaan Bellman, dan mengumpulkan pengalaman melalui kebijakan Epsilon-Greedy. Untuk stabilitas yang lebih, kami mencicipi pengalaman masa lalu secara acak (pengalaman replay). Varian dari algoritma DQN adalah DQN double-dqn (atau DDQN). Untuk estimasi nilai-Q kami yang lebih akurat, kami menggunakan jaringan kedua untuk meredam perkiraan nilai-Q oleh jaringan asli. Jaringan target ini diperbarui pada tingkat yang lebih lambat, pada setiap langkah pelatihan.

Double Deep Q-Network Dengan Pengalaman Prioritas Replay (DDQN + Per)

Kami dapat lebih meningkatkan algoritma DDQN kami dengan menambahkan dalam Prioritas Pengalaman Replay (Per), yang bertujuan melakukan pengambilan sampel penting pada pengalaman yang dikumpulkan. Pengalaman ini diperingkat oleh TD-error-nya, dan disimpan dalam struktur Sumtree, yang memungkinkan pengambilan transisi (S, A, R, S ') yang efisien dengan kesalahan tertinggi.

Dueling Double Deep Q-Network (Dueling DDQN)

Dalam varian duel DQN, kami menggabungkan lapisan perantara dalam Q-Network untuk memperkirakan nilai negara dan fungsi keuntungan yang bergantung pada negara. Setelah reformulasi (lihat REF), ternyata kita dapat mengekspresikan estimasi nilai-Q sebagai nilai negara, di mana kita menambahkan estimasi keuntungan dan mengurangi rata-rata. Faktorisasi nilai-nilai yang tidak tergantung pada negara dan bergantung pada negara ini membantu menguraikan pembelajaran di seluruh tindakan dan menghasilkan hasil yang lebih baik.

Berlari

$ python3 main.py --type DDQN --env CartPole-v1 --batch_size 64
$ python3 main.py --type DDQN --env CartPole-v1 --batch_size 64 --with_PER
$ python3 main.py --type DDQN --env CartPole-v1 --batch_size 64 --dueling

Argumen

Argumen	Keterangan	Nilai
--jenis	Jenis algoritma RL untuk dijalankan	Pilih dari {A2C, A3C, DDQN, DDPG}
--env	Tentukan lingkungan	Breakoutnoframeskip-V4 (default)
--nb_episodes	Jumlah episode yang harus dijalankan	5000 (default)
--Bot_Size	Ukuran Batch (DDQN, DDPG)	32 (default)
--Conecutive_frames	Jumlah bingkai berturut -turut	4 (default)
--is_atari	Apakah lingkungan adalah permainan atari dengan input piksel	-
--with_per	Apakah akan menggunakan replay pengalaman prioritas (dengan ddqn)	-
-Dueling	Apakah akan menggunakan jaringan duel (dengan ddqn)	-
--N_Threads	Jumlah utas (A3C)	16 (default)
--gather_stats	Apakah akan menghitung statistik skor rata -rata lebih dari 10 pertandingan (lambat, lihat di bawah)	-
--memberikan	Apakah akan membuat lingkungan seperti pelatihan	-
--gpu	Indeks GPU	0

Visualisasi & Pemantauan

Visualisasi model

Semua model disimpan di bawah <algorithm_folder>/models/ saat pelatihan selesai. Anda dapat memvisualisasikan mereka berjalan di lingkungan yang sama dengan mereka dilatih dengan menjalankan skrip load_and_run.py . Untuk model DQN, Anda harus menentukan jalur ke model yang diinginkan dalam argumen --model_path . Untuk model aktor-kritik, Anda perlu menentukan kedua file berat dalam argumen --actor_path dan --critic_path .

Pemantauan Tensorboard

Menggunakan Tensorboard, Anda dapat memantau skor agen saat pelatihan. Saat berlatih, folder log dengan nama yang cocok dengan lingkungan yang dipilih akan dibuat. Misalnya, untuk mengikuti perkembangan A2C di Cartpole-V1, cukup jalankan:

$ tensorboard --logdir=A2C/tensorboard_CartPole-v1/

Hasil Plotting

Saat berlatih dengan argumen --gather_stats , file log dihasilkan berisi skor rata -rata lebih dari 10 pertandingan di setiap episode: logs.csv . Menggunakan Plotly, Anda dapat memvisualisasikan hadiah rata -rata per episode. Untuk melakukannya, pertama -tama Anda harus menginstal secara plot dan mendapatkan lisensi gratis.

pip3 install plotly

Untuk mengatur kredensial Anda, jalankan:

 import plotly
plotly . tools . set_credentials_file ( username = '<your_username>' , api_key = '<your_key>' )

Akhirnya, untuk merencanakan hasilnya, jalankan:

python3 utils/plot_results.py < path_to_your_log_file >

Ucapan Terima Kasih

Atari Lingkungan Helper Template oleh @shanhaoyu
Pembungkus lingkungan atari oleh openai
Kelas Pembantu Sumtree oleh @Jaara

Referensi (makalah)

Advantage Actor Critic (A2C)
Kritikus Aktor Keuntungan Asinkron (A3C)
Gradien kebijakan deterministik mendalam (DDPG)
Hindsight Experience Replay (dia)
Dear-learning Deep (DQN)
Qouble Q-Learning (DDQN)
Pulang Pengalaman yang diprioritaskan (per)
Dueling Network Architectures (D3QN)

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-02
ukuran 707.11KB
Berasal dari Github

Aplikasi Terkait

Game Menganggur Bersih Mendalam

2024-10-03
Lapangan Dalam

2023-07-07
Permainan Pemburu Dalam

2023-07-03
Di dalam

2022-08-30
Balapan Dalam: Pertempuran

2022-08-29
Rune yang dalam

2022-07-25

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
chat.petals.dev

Kode sumber lainnya

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua