تنزيل applied reinforcement learning - تنزيل كود المصدر applied reinforcement learning

applied reinforcement learning

كود الذكاء الاصطناعي

1.0.0

تنزيل

التعلم المعزز التطبيقي

لقد كنت أدرس التعلم المعزز وصنع القرار لبضع سنوات حتى الآن. أحد أصعب الأمور التي واجهتها لا يتعلق بالضرورة بالمفاهيم، بل بكيفية شرح هذه المفاهيم. بالنسبة لي، التعلم يحدث عندما يكون الشخص قادرًا على التواصل مع المفاهيم التي يتم تدريسها. لهذا، غالبًا ما يكون هناك حاجة إلى تفسير بديهي، ومن المحتمل أن يساعد النهج العملي في بناء هذا النوع من الفهم.

هدفي من هذا المستودع هو إنشاء مورد، مع المجتمع، من شأنه أن يساعد القادمين الجدد على فهم التعلم المعزز بطريقة بديهية. ضع في اعتبارك ما تراه هنا محاولتي الأولية لتعليم بعض هذه المفاهيم بشكل واضح وبسيط بقدر ما أستطيع شرحها.

إذا كنت ترغب في التعاون، سواء كان خطأ مطبعي، أو إضافة كاملة إلى النص، أو ربما إصلاح دفتر ملاحظات أو دفتر ملاحظات جديد بالكامل، فلا تتردد في إرسال مشكلتك و/أو طلب السحب لتحسين الأمور. طالما أن طلب السحب الخاص بك يتوافق مع هدف المستودع، فمن المحتمل جدًا أن نقوم بالدمج. أنا لست أفضل معلم، أو باحث في التعلم المعزز، لكنني أعتقد أنه يمكننا جعل التعلم المعزز واتخاذ القرار سهلاً على أي شخص أن يفهمه. حسنا، على الأقل أسهل.

جدول المحتويات

تركيب دفاتر الملاحظات
- قم بتثبيت البوابة
- قم بتثبيت عامل الميناء
- تشغيل دفاتر الملاحظات
  - ليرة تركية؛ نسخة DR
  - نسخة أكثر تفصيلا قليلا:
    - افتح دفاتر الملاحظات في متصفحك:
    - افتح TensorBoard على العنوان التالي:
- نصائح عامل الميناء
الجزء الأول: المقدمة
- 1. مقدمة في اتخاذ القرار
  - 1.1 اتخاذ القرار
  - 1.2 مزيد من القراءة
الجزء الثاني: تعزيز التعلم وصنع القرار
- 2. القرارات المتتابعة
  - 2.1 نمذجة مشاكل اتخاذ القرار
  - 2.2 تمثيل الحلول
  - 2.3 مشكلة تسلسلية بسيطة
  - 2.4 مشاكل أكثر تعقيدًا قليلاً
  - 2.5 تقييم الحلول
  - 2.6 تحسين الحلول
  - 2.7 إيجاد الحلول المثلى
  - 2.8 تحسين تكرار السياسة
  - 2.9 التمارين
  - 2.10 مزيد من القراءة
- 3. الإجراءات الحتمية والعشوائية
  - 3.1 لا يمكننا السيطرة على العالم بشكل كامل
  - 3.2 التعامل مع العشوائية
  - 3.3 التمارين
  - 3.4 مزيد من القراءة
- 4. البيئات المعروفة وغير المعروفة
  - 4.1 ماذا لو لم يكن لدينا نموذج للبيئة؟
  - 4.2 الحاجة إلى الاستكشاف
  - 4.3 ماذا نتعلم؟
  - 4.4 ماذا نفعل بما نتعلمه؟
  - 4.5 إضافة عشوائية صغيرة إلى أفعالك
  - 4.6 التمارين
  - 4.7 مزيد من القراءة
الجزء الثالث: اتخاذ القرار في المشكلات الصعبة
- 5. الدول المنفصلة والمستمرة
  - 5.1 كبير جدًا بحيث لا يمكن الاحتفاظ به في الذاكرة
  - 5.2 تقسيم مساحة الدولة
  - 5.3 استخدام تقريب الوظيفة
  - 5.4 التمارين
  - 5.5 مزيد من القراءة
- 6. الإجراءات المنفصلة والمستمرة
  - 6.1 مساحة العمل المستمر
  - 6.2 تقدير مساحة العمل
  - 6.3 استخدام تقريب الوظيفة
  - 6.4 البحث عن السياسة
  - 6.5 التمارين
  - 6.6 مزيد من القراءة
- 7. الدول التي يمكن ملاحظتها والتي يمكن ملاحظتها جزئيًا
  - 7.1 هل ما نراه هو ما هو عليه؟
  - 7.2 تقدير الدولة
  - 7.3 التحكم في البيئات التي يمكن ملاحظتها جزئيًا
  - 7.4 مزيد من القراءة
الجزء الرابع: تعدد وكلاء اتخاذ القرار
- 8. الوكلاء الفرديون والمتعددون
  - 8.1 الوكلاء الذين لديهم نفس الأهداف
  - 8.2 ماذا يحدث عندما يكون هناك وكلاء آخرون في اللعب؟
  - 8.3 مزيد من القراءة
- 9. الوكلاء المتعاونون والمتخاصمون
  - 9.1 الوكلاء ذوو الأهداف المتضاربة
  - 9.2 فرق الوكلاء ذات الأهداف المتضاربة
  - 9.3 مزيد من القراءة
الجزء الخامس: صنع القرار البشري وما بعده
- 10. اتخاذ القرار والبشر
  - 10.1 أوجه التشابه بين الأساليب التي تمت مناقشتها والبشر
  - 10.2 الاختلافات بين الأساليب التي تمت مناقشتها والبشر
  - 10.3 مزيد من القراءة
- 11. الاستنتاج
- 12. الكتب الموصى بها
- 12. الدورات الموصى بها

تركيب دفاتر الملاحظات

يحتوي هذا المستودع على دفاتر ملاحظات Jupyter لمتابعة المحاضرات. ومع ذلك، هناك العديد من الحزم والتطبيقات التي تحتاج إلى التثبيت. لتسهيل الأمور عليك، استغرقت وقتًا أطول قليلاً لإعداد بيئة قابلة للتكرار يمكنك استخدامها للمتابعة.

قم بتثبيت البوابة

اتبع التعليمات الموجودة على (https://git-scm.com/book/en/v2/Getting-Started-Installing-Git)

قم بتثبيت عامل الميناء

اتبع التعليمات الموجودة على (https://docs.docker.com/engine/getstarted/step_one/#step-2-install-docker)

تشغيل دفاتر الملاحظات

ليرة تركية؛ نسخة DR

git clone [email protected]:mimoralea/applied-reinforcement-learning.git && cd applied-reinforcement-learning
docker pull mimoralea/openai-gym:v1
docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

نسخة أكثر تفصيلا قليلا:

انسخ المستودع إلى الموقع المطلوب (على سبيل المثال git clone [email protected]:mimoralea/applied-reinforcement-learning.git ~/Projects/applied-reinforcement-learning )
أدخل في دليل المستودع (على سبيل المثال cd ~/Projects/applied-reinforcement-learning )
قم ببناء نفسك أو اسحب حاوية Docker المبنية بالفعل:
3.1. لإنشائه استخدم الأمر التالي: docker build -t mimoralea/openai-gym:v1 .
3.2. لسحبه من Docker hub، استخدم: docker pull mimoralea/openai-gym:v1
قم بتشغيل الحاوية: docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

افتح دفاتر الملاحظات في متصفحك:

http://localhost:8888 (أو اتبع الرابط الذي خرج من أمر التشغيل والذي سيتضمن الرمز المميز)

افتح TensorBoard على العنوان التالي:

http://localhost:6006

سيساعدك هذا على تصور الشبكة العصبية في الدروس مع تقريب الوظيفة.

نصائح عامل الميناء

إذا كنت ترغب في الوصول إلى جلسة bash لحاوية قيد التشغيل، فقم بما يلي:
** سيُظهر لك docker ps # الحاويات قيد التشغيل حاليًا - لاحظ معرف الحاوية التي تحاول الوصول إليها
** docker exec --user root -it c3fbc82f1b49 /bin/bash # في هذه الحالة c3fbc82f1b49 هو المعرف
إذا كنت ترغب في بدء مثيل حاوية جديد مباشرة في bash (بدون تشغيل Jupyter أو TensorBoard)
** docker run -it --rm mimoralea/openai-gym:v1 /bin/bash # سيؤدي هذا إلى تشغيل جلسة bash كمستخدم للكمبيوتر المحمول
** docker run --user root -e GRANT_SUDO=yes -it --rm mimoralea/openai-gym:v1 /bin/bash # سيؤدي هذا إلى تشغيل جلسة bash كجذر

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-01-27
الحجم 866.53KB
من Github

تطبيقات ذات صلة

Parameter Efficient Transfer Learning Benchmark

2024-11-06
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
تعلم PHP5 (تعلم PHP)

2009-05-24
أورايلي تعلم PHP وMySQL الإصدار الثاني

2009-05-24

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل