"التكنولوجيا المتقدمة بما فيه الكفاية لا يمكن تمييزها عن السحر."
— آرثر سي. كلارك (مؤلف كتاب 2001: رحلة في الفضاء)
يهدف تعلم الذكاء الاصطناعي التوليدي باستخدام PyTorch إلى إرشادك خلال إنشاء محتوى متنوع (الأشكال والأرقام والصور والنصوص والموسيقى) من الصفر. يبدأ بنماذج بسيطة، لمساعدة القراء على بناء مهارات التعلم العميق الأساسية قبل التقدم إلى تحديات أكثر تعقيدًا. جميع النماذج التوليدية في هذا الكتاب هي شبكات عصبية عميقة. يبدأ الكتاب بمشروع تعليمي عميق شامل في PyTorch، وهو مثالي لأولئك الجدد في هذا المجال. تم تصميم كل فصل بعناية للبناء على الفصل السابق. ستقوم أولاً بإنشاء محتوى أساسي مثل الأشكال والأرقام والصور باستخدام شبكات الخصومة التوليدية (GANs) ذات بنيات واضحة. مع تقدمك، يزداد التعقيد، ويبلغ ذروته في بناء نماذج حديثة مثل Transformers وDiffusion Models.
تم تصميم تعلم الذكاء الاصطناعي التوليدي باستخدام PyTorch لعشاق التعلم الآلي وعلماء البيانات في مجالات الأعمال المختلفة الذين يمتلكون مهارات برمجة Python متوسطة. يهدف هذا الكتاب إلى تعليم تقنيات الذكاء الاصطناعي التوليدية لإنشاء محتوى جديد ومبتكر، مثل الصور والنصوص والأنماط والأرقام والأشكال والصوت، لتعزيز أعمال أصحاب العمل وحياتهم المهنية. على الرغم من توفر العديد من المواد التعليمية المجانية عبر الإنترنت والتي تغطي موضوعات فردية، فإن هذا الكتاب يدمج كل شيء في تنسيق واضح وسهل المتابعة وحديث، مما يجعله مصدرًا لا يقدر بثمن لأي شخص يطمح إلى أن يصبح خبيرًا في الذكاء الاصطناعي التوليدي.
يتكون الكتاب من 16 فصلاً، مقسمة إلى أربعة أجزاء.
يقدم لك الجزء الأول الذكاء الاصطناعي التوليدي والتعلم العميق باستخدام PyTorch.
• يشرح الفصل الأول ما هو الذكاء الاصطناعي التوليدي والأساس المنطقي وراء اختيار PyTorch على أطر عمل الذكاء الاصطناعي الأخرى مثل TensorFlow لبناء نماذج توليدية في هذا الكتاب.
• يستخدم الفصل الثاني PyTorch لإنشاء شبكات عصبية عميقة لإجراء تصنيفات ثنائية ومتعددة الفئات بحيث تصبح على دراية جيدة بمهام التعلم والتصنيف العميق. الهدف هو إعدادك للفصول القادمة، حيث تستخدم الشبكات العصبية العميقة في PyTorch لإنشاء نماذج توليدية متنوعة.
• يقدم لك الفصل الثالث شبكات الخصومة التوليدية (GANs). تتعلم كيفية استخدام شبكات GAN لإنشاء أشكال وتسلسلات من الأرقام بأنماط معينة.
ويغطي الجزء الثاني توليد الصور.
• يناقش الفصل الرابع كيفية إنشاء شبكات GAN وتدريبها على إنشاء صور ملونة عالية الدقة. على وجه الخصوص، ستتعلم كيفية استخدام الشبكات العصبية التلافيفية (CNN) لالتقاط الميزات المكانية في الصور. ستتعلم أيضًا كيفية استخدام الطبقات التلافيفية المنقولة لتكوين خرائط ميزات عالية الدقة في الصور وإنشاءها.
• يعرض الفصل الخامس تفاصيل طريقتين لاختيار الخصائص في الصور التي تم إنشاؤها. تتضمن الطريقة الأولى اختيار نواقل معينة في الفضاء الكامن. تستخدم الطريقة الثانية شبكة GAN المشروطة، حيث يمكنك إنشاء شبكة GAN وتدريبها باستخدام البيانات المصنفة.
• يعلمك الفصل السادس كيفية استخدام CycleGAN لترجمة الصور بين مجالين مثل الصور ذات الشعر الأسود والصور ذات الشعر الأشقر، أو صور الخيول وصور الحمار الوحشي.
• يشرح الفصل السابع كيفية إنشاء صور عالية الدقة باستخدام نموذج توليدي آخر: أجهزة التشفير التلقائي (AEs) وأجهزة التشفير التلقائي المتغيرة (VAEs).
يتعمق الجزء الثالث في معالجة اللغة الطبيعية (NLP) وإنشاء النصوص.
• يناقش الفصل الثامن إنشاء النص باستخدام الشبكة العصبية المتكررة (RNN). على طول الطريق، ستتعلم كيفية عمل الترميز وتضمين الكلمات. ستتعلم أيضًا كيفية إنشاء نص بشكل انحداري باستخدام النموذج المُدرب وكيفية استخدام درجة الحرارة وأخذ عينات من أعلى K للتحكم في إبداع النص الذي تم إنشاؤه.
• يقوم الفصل التاسع ببناء محول من الصفر، استنادًا إلى الورقة "الانتباه هو كل ما تحتاجه"، للترجمة بين أي لغتين. ستنفذ سطرًا تلو الآخر آلية الاهتمام متعدد الرؤوس ومحول التشفير وفك التشفير.
• يقوم الفصل العاشر بتدريب المحول الذي قمت ببنائه في الفصل التاسع بأكثر من 47000 زوج من الترجمات من الإنجليزية إلى الفرنسية. ستتعلم ترجمة العبارات الإنجليزية الشائعة إلى الفرنسية باستخدام النموذج المدرب.
• يقوم الفصل 11 ببناء GPT-2XL، وهو الإصدار الأكبر من GPT-2، من الصفر. بعد ذلك، ستتعلم كيفية استخراج الأوزان المدربة مسبقًا من Hugging Face وتحميلها إلى نموذج GPT-2 الخاص بك لإنشاء النص.
• يبني الفصل 12 نسخة مصغرة من نموذج GPT مع ما يقرب من خمسة ملايين معلمة بحيث يمكنك تدريبها على جهاز كمبيوتر عادي. ستستخدم ثلاث روايات لإرنست همنغواي كبيانات تدريبية. يمكن للنموذج المدرب إنشاء نص بأسلوب همنغواي.
ويناقش الجزء الرابع بعض التطبيقات العملية للنماذج التوليدية في الكتاب وآخر التطورات في مجال الذكاء الاصطناعي التوليدي.
• يقوم الفصل 13 ببناء وتدريب MuseGAN لتوليد الموسيقى. يتعامل MuseGAN مع القطعة الموسيقية على أنها كائن متعدد الأبعاد يشبه الصورة. يقوم المولد بإنتاج مقطوعة موسيقية كاملة ويعرضها على الناقد لتقييمها. يقوم المولد بعد ذلك بتعديل الموسيقى بناءً على تعليقات الناقد حتى تشبه إلى حد كبير الموسيقى الحقيقية من مجموعة بيانات التدريب. استمع إلى مثال للموسيقى التي تم إنشاؤها: https://gattonweb.uky.edu/faculty/lium/ml/MuseGAN_song.mp3
• يأخذ الفصل 14 نهجًا مختلفًا في إنشاء موسيقى الذكاء الاصطناعي. فبدلاً من التعامل مع المقطوعة الموسيقية باعتبارها كائنًا متعدد الأبعاد، فإنك تتعامل معها باعتبارها سلسلة من الأحداث الموسيقية. ستقوم بعد ذلك بتطبيق تقنيات من إنشاء النص للتنبؤ بالعنصر التالي في التسلسل. استمع إلى مثال للموسيقى التي تم إنشاؤها: https://gattonweb.uky.edu/faculty/lium/ml/musicTrans.mp3
• يقدم لك الفصل 15 نماذج الانتشار، التي تشكل أساس جميع المحولات الرائدة لتحويل النص إلى صورة (مثل DALL-E أو Imagen). ستقوم ببناء وتدريب نموذج انتشار لإنشاء صور زهور عالية الدقة.
• ينهي الفصل 16 الكتاب بمشروع تستخدم فيه مكتبة LangChain لدمج نماذج اللغات الكبيرة المدربة مسبقًا (LLMs) مع Wolfram Alpha وWikipedia APIs لإنشاء مساعد شخصي يعرف كل شيء.
يناقش الملحق كيفية تثبيت PyTorch على جهاز الكمبيوتر الخاص بك، مع أو بدون وحدة معالجة الرسومات التي تدعم بنية الجهاز الموحد (CUDA) أو بدونها.
جميع برامج Python الموجودة في هذا الكتاب متاحة للتنزيل من مستودع GitHub الخاص بالكتاب https://github.com/markhliu/DGAI. يتم تنظيم البرامج حسب الفصول، حيث يوجد كل فصل في ملف Jupyter Notebook واحد. راجع ملحق الكتاب حول كيفية تثبيت Python وPyTorch وJupyter Notebook على جهاز الكمبيوتر الخاص بك.