تنزيل genrl - تنزيل رمز المصدر genrl

genrl

شفرة المصدر الأخرى

v0.0.2

تنزيل

Genrl هي مكتبة تعلم تعزيز Pytorch تتمحور حول تطبيقات الخوارزمية القابلة للتكرار والقابلة للتعميم وتحسين إمكانية الوصول في التعرف على التعزيز

إصدار Genrl الحالي في V0.0.2. توقع كسر التغييرات

أبحاث التعلم التعزيز تتحرك بشكل أسرع من أي وقت مضى. من أجل مواكبة الاتجاه المتزايد والتأكد من أن أبحاث RL تظل قابلة للتكرار ، تهدف Genrl إلى مساعدة أسرع من التكاثر والورق من خلال توفير الميزات الرئيسية التالية:

Pytorch-First : Python modular ، قابلية التوسيع والحيوية
البرامج التعليمية والمثال : 20+ برامج تعليمية من خوارزمية RL الأساسية إلى Sota Deep RL (مع تفسيرات)!
المدرب الموحد وفئة التسجيل : إعادة استخدام رمز ووزارة واجهة المستخدم عالية المستوى
تطبيقات الخوارزمية الجاهزة : تطبيقات جاهزة لخوارزميات RL الشهيرة.
القياس الأسرع : ضبط المتقلب التلقائي التلقائي ، تطبيقات البيئة وما إلى ذلك.

من خلال دمج هذه الميزات في Genrl ، نهدف إلى دعم أي تطبيق خوارزمية جديد في أقل من 100 خط .

إذا كنت مهتمًا بالمساهمة ، فلا تتردد في المرور بالمشكلات وفتح PRS للحصول على التعليمات البرمجية والمستندات والاختبارات وما إلى ذلك في حالة وجود أي أسئلة ، يرجى مراجعة المبادئ التوجيهية المساهمة

تثبيت

Genrl متوافق مع Python 3.6 أو أحدث ويعتمد أيضًا على pytorch و openai-gym . أسهل طريقة لتثبيت Genrl هي مع PIP ، مثبت الحزمة المفضل لدى Python.

 $ pip install genrl

لاحظ أن Genrl هو مشروع نشط وينشر بشكل روتيني إصدارات جديدة. من أجل ترقية Genrl إلى أحدث إصدار ، استخدم PIP على النحو التالي.

 $ pip install -U genrl

إذا كنت تنوي تثبيت أحدث إصدار من المكتبة (أي من المصدر) ، يمكنك ببساطة القيام:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

الاستخدام

لتدريب نموذج ممثل ناعم من الصفر على بيئة الصالة الرياضية Pendulum-v0 ومكافآت السجل على Tensorboard

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

لتدريب نموذج dyna-Q جدولي من نقطة الصفر على بيئة الصالة الرياضية FrozenLake-v0 ومكافآت المؤامرة:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

دروس

اللصوص المتعددة المسلحة
- الثقة العليا ملزمة
- طومسون أخذ العينات
- بايزي
- اختيار عمل softmax
قطاع الطرق السياقية
- الاستدلال الخلفي الخطي
- الاستدلال التباين
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- عينة ضوضاء المعلمة
خلفية تعلم التعزيز العميق
- تدرجات سياسة الفانيليا
- ميزة الناقد الممثل
- تحسين السياسة القريبة

الخوارزميات

عميق RL

DQN (شبكات Q العميقة)
- DQN
- مزدوج DQN
- المبارزة DQN
- صاخبة DQN
- DQN الفئوي
VPG (تدرجات سياسة الفانيليا)
A2C (Advantage Actor-Critic)
PPO (تحسين السياسة القريبة)
DDPG (تدرجات السياسة الحتمية العميقة)
TD3 (توأم تأخر DDPG)
SAC (ممثل ناعم)

الكلاسيكية RL

سارسا
س التعلم

Bandit RL

اللصوص المتعددة المسلحة
- الجشع EPS
- UCB
- طومسون أخذ العينات
- قطاع الطرق بايزي
- مستكشف Softmax
قطاع الطرق السياقية
- الجشع EPS
- UCB
- طومسون أخذ العينات
- قطاع الطرق بايزي
- مستكشف Softmax
قطاع الطرق السياق العميق
- استنتاج التباين
- أخذ عينات من الضوضاء لمعلمات الشبكة العصبية
- جشع Epsilon مع شبكة عصبية
- الانحدار البايزي على الاستدلال الخلفي
- مجموعة bootstraped

الاعتمادات والمكتبات المماثلة:

الصالة الرياضية - البيئات
راي
Openai Baselines - Logger
خطوط الأساس المستقرة 3: تهدف خطوط الأساس المستقرة إلى توفير خطوط الأساس لخوارزميات RL العميقة.
pytorch-a2c-pppo-acktr
قطاع الطرق السياق العميق

يوسع

معلومات إضافية

الإصدار v0.0.2
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-02
الحجم 395.94KB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
chat.petals.dev

شفرة المصدر الأخرى

1.0.0
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل