يهدف هذا الكتاب إلى إظهار كيف يمكن لتعلم الآلة أن يضيف قيمة إلى استراتيجيات التداول الخوارزمية بطريقة عملية وشاملة. وهو يغطي نطاقًا واسعًا من تقنيات تعلم الآلة بدءًا من الانحدار الخطي وحتى التعلم المعزز العميق، ويوضح كيفية إنشاء واختبار وتقييم استراتيجية تداول تعتمد على تنبؤات النماذج.
في أربعة أجزاء تحتوي على 23 فصلاً بالإضافة إلى ملحق ، ويغطي أكثر من 800 صفحة :
يحتوي هذا الريبو على أكثر من 150 دفترًا تضع المفاهيم والخوارزميات وحالات الاستخدام التي تمت مناقشتها في الكتاب موضع التنفيذ. ويقدمون العديد من الأمثلة التي تبين:
ننصح بشدة بمراجعة الدفاتر أثناء قراءة الكتاب؛ تكون عادةً في حالة التنفيذ وغالبًا ما تحتوي على معلومات إضافية غير مضمنة بسبب قيود المساحة.
بالإضافة إلى المعلومات الواردة في هذا الريبو، يحتوي موقع الكتاب على ملخص الفصل ومعلومات إضافية.
لتسهيل قيام القراء بطرح الأسئلة حول محتوى الكتاب وأمثلة التعليمات البرمجية، بالإضافة إلى تطوير وتنفيذ استراتيجياتهم الخاصة وتطورات الصناعة، فإننا نستضيف منصة عبر الإنترنت.
يرجى الانضمام إلى مجتمعنا والتواصل مع زملائك المتداولين المهتمين بالاستفادة من تعلم الآلة في استراتيجيات التداول، ومشاركة تجربتك، والتعلم من بعضكم البعض!
أولا وقبل كل شيء، يوضح هذا الكتاب كيف يمكنك استخراج الإشارات من مجموعة متنوعة من مصادر البيانات وتصميم استراتيجيات التداول لفئات الأصول المختلفة باستخدام مجموعة واسعة من خوارزميات التعلم الخاضعة للإشراف وغير الخاضعة للإشراف والمعززة. كما أنه يوفر المعرفة الرياضية والإحصائية ذات الصلة لتسهيل ضبط الخوارزمية أو تفسير النتائج. علاوة على ذلك، فإنه يغطي الخلفية المالية التي ستساعدك على العمل مع بيانات السوق والبيانات الأساسية، واستخراج ميزات المعلومات، وإدارة أداء استراتيجية التداول.
من الناحية العملية، تهدف الطبعة الثانية إلى تزويدك بالفهم المفاهيمي والأدوات اللازمة لتطوير استراتيجيات التداول الخاصة بك القائمة على تعلم الآلة. ولتحقيق هذه الغاية، فهو يضع تعلم الآلة كعنصر حاسم في العملية بدلاً من كونه تمرينًا مستقلاً، ويقدم تعلم الآلة الشامل لسير عمل التداول بدءًا من مصادر البيانات، وهندسة الميزات، وتحسين النموذج لتصميم الإستراتيجية والاختبار الخلفي.
وبشكل أكثر تحديدًا، يبدأ سير عمل ML4T بتوليد أفكار لعالم استثماري محدد جيدًا، وجمع البيانات ذات الصلة، واستخراج الميزات الإعلامية. كما يتضمن أيضًا تصميم وضبط وتقييم نماذج تعلم الآلة المناسبة للمهمة التنبؤية. وأخيرا، يتطلب الأمر تطوير استراتيجيات التداول للعمل بناء على الإشارات التنبؤية للنماذج، فضلا عن محاكاة وتقييم أدائها على البيانات التاريخية باستخدام محرك الاختبار الخلفي. بمجرد أن تقرر تنفيذ إستراتيجية خوارزمية في سوق حقيقي، ستجد نفسك تكرر سير العمل هذا بشكل متكرر لدمج معلومات جديدة وبيئة متغيرة.
يترجم تركيز الطبعة الثانية على سير عمل ML4t إلى فصل جديد عن الاختبار الخلفي للاستراتيجية، وملحق جديد يصف أكثر من 100 عامل ألفا مختلف، والعديد من التطبيقات العملية الجديدة. لقد قمنا أيضًا بإعادة كتابة معظم المحتوى الحالي من أجل الوضوح وسهولة القراءة.
تستخدم تطبيقات التداول الآن نطاقًا أوسع من مصادر البيانات يتجاوز أسعار الأسهم الأمريكية اليومية، بما في ذلك الأسهم الدولية وصناديق الاستثمار المتداولة. كما يوضح أيضًا كيفية استخدام التعلم الآلي لاستراتيجية يومية باستخدام بيانات الأسهم ذات التردد الدقيق. علاوة على ذلك، فإنه يوسع نطاق تغطية مصادر البيانات البديلة لتشمل ملفات SEC لتحليل المشاعر وتوقعات العائدات، بالإضافة إلى صور الأقمار الصناعية لتصنيف استخدام الأراضي.
الابتكار الآخر في الطبعة الثانية هو تكرار العديد من تطبيقات التداول التي تم نشرها مؤخرًا في أفضل المجلات:
تستخدم جميع التطبيقات الآن أحدث إصدارات البرامج المتاحة (في وقت كتابة هذا التقرير) مثل pandas 1.0 وTensorFlow 2.2. هناك أيضًا إصدار مخصص من Zipline يجعل من السهل تضمين تنبؤات نماذج التعلم الآلي عند تصميم استراتيجية التداول.
تعتمد أمثلة التعليمات البرمجية على مجموعة واسعة من مكتبات Python في مجالات علوم البيانات والمالية.
ليس من الضروري محاولة تثبيت كافة المكتبات مرة واحدة لأن ذلك يزيد من احتمالية مواجهة تعارضات في الإصدارات. بدلاً من ذلك، نوصي بتثبيت المكتبات المطلوبة لفصل معين أثناء المضي قدمًا.
تحديث مارس 2022: تم الآن
zipline-reloaded
،pyfolio-reloaded
،alphalens-reloaded
، وempyrical-reloaded
على قناةconda-forge
. تحتوي القناةml4t
فقط على إصدارات قديمة وستتم إزالتها قريبًا.
تحديث أبريل 2021: مع تحديث Zipline، لم يعد من الضروري استخدام Docker. تشير إرشادات التثبيت الآن إلى ملفات البيئة الخاصة بنظام التشغيل والتي من شأنها تبسيط تشغيل أجهزة الكمبيوتر المحمولة.
تحديث فبراير 2021: يقوم الإصدار 2.0 من نموذج التعليمات البرمجية بتحديث بيئات conda التي توفرها صورة Docker إلى Python 3.8 وPandas 1.2 وTensorFlow 1.2 وغيرها؛ تستخدم بيئة الاختبار الخلفي لـ Zipline الآن Python 3.6.
conda
المختلفة وتثبيت الحزم المستخدمة في دفاتر الملاحظات مباشرة على جهازك إذا كنت تفضل ذلك (واعتمادًا على نظامك، تكون مستعدًا لبذل جهد إضافي).إذا واجهت أي صعوبات في تثبيت البيئات أو تنزيل البيانات أو تشغيل التعليمات البرمجية، فيرجى إثارة مشكلة GitHub في الريبو (هنا). تم وصف العمل مع مشكلات GitHub هنا.
تحديث : يمكنك تنزيل بيانات algoseek المستخدمة في الكتاب هنا. راجع تعليمات المعالجة المسبقة في الفصل 2 والمثال اليومي مع نموذج تعزيز التدرج في الفصل 12.
تحديث : يحتوي دليل الأشكال على نسخ ملونة من المخططات المستخدمة في الكتاب.
يحتوي الكتاب على أربعة أجزاء تتناول التحديات المختلفة التي تنشأ عند تحديد المصادر والعمل مع السوق، ومصادر البيانات الأساسية والبديلة، وتطوير حلول تعلم الآلة لمختلف المهام التنبؤية في سياق التداول، وتصميم وتقييم استراتيجية تداول تعتمد على الإشارات التنبؤية الناتجة عن نموذج ML.
يحتوي الدليل الخاص بكل فصل على ملف README الذي يحتوي على معلومات إضافية حول المحتوى وأمثلة التعليمات البرمجية والموارد الإضافية.
الجزء الأول: من البيانات إلى تطوير الإستراتيجية
الجزء 2: التعلم الآلي للتجارة: الأساسيات
الجزء الثالث: معالجة اللغات الطبيعية لأغراض التداول
الجزء الرابع: التعلم العميق والمعزز
يوفر الجزء الأول إطارًا لتطوير استراتيجيات التداول المدفوعة بالتعلم الآلي (ML). وهو يركز على البيانات التي تدعم خوارزميات واستراتيجيات تعلم الآلة التي تمت مناقشتها في هذا الكتاب، ويوضح كيفية هندسة وتقييم الميزات المناسبة لنماذج تعلم الآلة، وكيفية إدارة وقياس أداء المحفظة أثناء تنفيذ استراتيجية التداول.
يستكشف هذا الفصل اتجاهات الصناعة التي أدت إلى ظهور تعلم الآلة كمصدر للميزة التنافسية في صناعة الاستثمار. سننظر أيضًا في المكان الذي يتناسب فيه تعلم الآلة مع عملية الاستثمار لتمكين استراتيجيات التداول الخوارزمية.
وبشكل أكثر تحديدًا، فهو يغطي المواضيع التالية:
يوضح هذا الفصل كيفية العمل مع بيانات السوق والبيانات الأساسية ويصف الجوانب الهامة للبيئة التي تعكسها. على سبيل المثال، فإن الإلمام بأنواع الطلبات المختلفة والبنية التحتية التجارية لا يهم فقط لتفسير البيانات ولكن أيضًا لتصميم عمليات محاكاة الاختبار الخلفي بشكل صحيح. نوضح أيضًا كيفية استخدام Python للوصول إلى بيانات التداول والبيانات المالية ومعالجتها.
توضح الأمثلة العملية كيفية العمل مع بيانات التداول من بيانات علامة ناسداك وبيانات شريط دقائق ألغوسيك مع مجموعة غنية من السمات التي تلتقط ديناميكية الطلب والعرض التي سنستخدمها لاحقًا لاستراتيجية لحظية قائمة على تعلم الآلة. نحن نغطي أيضًا واجهات برمجة التطبيقات المتنوعة لموفري البيانات وكيفية الحصول على معلومات البيانات المالية من هيئة الأوراق المالية والبورصة (SEC).
ويتناول هذا الفصل على وجه الخصوص:يوضح هذا الفصل فئات البيانات البديلة وحالات استخدامها، ويصف معايير تقييم العدد الهائل من المصادر ومقدمي الخدمات، ويلخص المشهد الحالي للسوق.
ويوضح أيضًا كيفية إنشاء مجموعات بيانات بديلة عن طريق استخراج مواقع الويب، مثل جمع نصوص مكالمات الأرباح لاستخدامها مع معالجة اللغة الطبيعية (NLP) وخوارزميات تحليل المشاعر في الجزء الثالث من الكتاب.
وبشكل أكثر تحديدًا، يغطي هذا الفصل ما يلي:
إذا كنت معتادًا على التعلم الآلي، فأنت تعلم أن هندسة الميزات تعد عنصرًا حاسمًا للتنبؤات الناجحة. وهو أمر مهم على الأقل في مجال التداول، حيث قام الباحثون الأكاديميون والصناعيون بالتحقيق لعقود من الزمن في العوامل التي تحرك أسواق الأصول وأسعارها، وما هي الميزات التي تساعد في تفسير تحركات الأسعار أو التنبؤ بها.
يوضح هذا الفصل النقاط الرئيسية لهذا البحث كنقطة انطلاق لبحثك الخاص عن عوامل ألفا. كما يقدم أدوات أساسية لحساب واختبار عوامل ألفا، مع تسليط الضوء على كيفية قيام مكتبات NumPy وpandas وTA-Lib بتسهيل معالجة البيانات وتقديم تقنيات التجانس الشائعة مثل المويجات ومرشح Kalman الذي يساعد على تقليل التشويش في البيانات. وبعد قراءتها ستتعرف على:
تولد عوامل ألفا إشارات تترجمها الإستراتيجية الخوارزمية إلى صفقات، والتي بدورها تنتج مراكز طويلة وقصيرة. وتحدد عوائد ومخاطر المحفظة الناتجة ما إذا كانت الاستراتيجية تلبي الأهداف الاستثمارية.
هناك عدة طرق لتحسين المحافظ. يتضمن ذلك تطبيق التعلم الآلي (ML) لمعرفة العلاقات الهرمية بين الأصول ومعاملتها كمكملات أو بدائل عند تصميم ملف تعريف مخاطر المحفظة. يغطي هذا الفصل:
يغطي الجزء الثاني خوارزميات التعلم الأساسية الخاضعة للإشراف وغير الخاضعة للإشراف ويوضح تطبيقها على استراتيجيات التداول. كما يقدم أيضًا منصة Quantopian التي تتيح لك الاستفادة من البيانات وتقنيات تعلم الآلة التي تم تطويرها في هذا الكتاب ودمجها لتنفيذ استراتيجيات خوارزمية تنفذ عمليات التداول في الأسواق الحية.
يبدأ هذا الفصل الجزء الثاني الذي يوضح كيف يمكنك استخدام مجموعة من نماذج تعلم الآلة الخاضعة للإشراف وغير الخاضعة للإشراف للتداول. سنشرح افتراضات كل نموذج وحالات الاستخدام قبل أن نعرض التطبيقات ذات الصلة باستخدام مكتبات بايثون المتنوعة.
هناك العديد من الجوانب المشتركة بين العديد من هذه النماذج وتطبيقاتها. يغطي هذا الفصل هذه الجوانب المشتركة حتى نتمكن من التركيز على الاستخدام الخاص بالنموذج في الفصول التالية. إنه يمهد الطريق من خلال تحديد كيفية صياغة وتدريب وضبط وتقييم الأداء التنبؤي لنماذج تعلم الآلة باعتبارها سير عمل منهجي. يتضمن المحتوى:
النماذج الخطية هي أدوات قياسية للاستدلال والتنبؤ في سياقات الانحدار والتصنيف. تعتمد العديد من نماذج تسعير الأصول المستخدمة على نطاق واسع على الانحدار الخطي. غالبًا ما تنتج النماذج المنتظمة مثل انحدار Ridge و Lasso تنبؤات أفضل عن طريق الحد من مخاطر التجاوز. تحدد تطبيقات الانحدار النموذجية عوامل الخطر التي تدفع عوائد الأصول لإدارة المخاطر أو التنبؤ بالعائدات. ومن ناحية أخرى، تشمل مشاكل التصنيف توقعات الأسعار الاتجاهية.
ويتناول الفصل 07 المواضيع التالية:
يقدم هذا الفصل منظورًا شاملاً حول تصميم ومحاكاة وتقييم استراتيجية التداول المدفوعة بخوارزمية تعلم الآلة. سنوضح بالتفصيل كيفية إجراء اختبار رجعي لاستراتيجية تعتمد على التعلم الآلي في سياق السوق التاريخي باستخدام backtrader لمكتبات Python وZipline. يهدف سير عمل ML4T في النهاية إلى جمع الأدلة من البيانات التاريخية التي تساعد في تحديد ما إذا كان سيتم نشر استراتيجية مرشحة في سوق مباشر وتعريض الموارد المالية للخطر. تحتاج المحاكاة الواقعية لاستراتيجيتك إلى أن تمثل بأمانة كيفية عمل أسواق الأوراق المالية وكيفية تنفيذ الصفقات. كما تتطلب العديد من الجوانب المنهجية الاهتمام لتجنب النتائج المتحيزة والاكتشافات الخاطئة التي من شأنها أن تؤدي إلى قرارات استثمارية سيئة.
وبشكل أكثر تحديدًا، بعد الاطلاع على هذا الفصل، ستتمكن من:
يركز هذا الفصل على النماذج التي تستخرج الإشارات من تاريخ السلسلة الزمنية للتنبؤ بالقيم المستقبلية لنفس السلسلة الزمنية. تُستخدم نماذج السلاسل الزمنية على نطاق واسع نظرًا للبعد الزمني المتأصل في التداول. ويقدم أدوات لتشخيص خصائص السلاسل الزمنية مثل الثبات واستخراج الميزات التي تلتقط الأنماط المفيدة المحتملة. كما يقدم نماذج سلاسل زمنية أحادية المتغير ومتعددة المتغيرات للتنبؤ بالبيانات الكلية وأنماط التقلب. وأخيرا، فإنه يشرح كيف يحدد التكامل المشترك الاتجاهات المشتركة عبر السلاسل الزمنية ويبين كيفية تطوير استراتيجية تداول الأزواج على أساس هذا المفهوم الحاسم.
ويغطي على وجه الخصوص:
تسمح لنا إحصائيات بايزي بقياس عدم اليقين بشأن الأحداث المستقبلية وتحسين التقديرات بطريقة مبدئية مع وصول معلومات جديدة. ويتكيف هذا النهج الديناميكي بشكل جيد مع الطبيعة المتطورة للأسواق المالية. تتيح الأساليب الافتراضية لتعلم الآلة رؤى جديدة حول عدم اليقين بشأن المقاييس الإحصائية وتقديرات المعلمات والتنبؤات. تتراوح التطبيقات من إدارة المخاطر الأكثر تفصيلاً إلى التحديثات الديناميكية للنماذج التنبؤية التي تتضمن التغييرات في بيئة السوق.
وبشكل أكثر تحديدًا، يغطي هذا الفصل ما يلي:
يطبق هذا الفصل أشجار القرار والغابات العشوائية على التداول. تتعلم أشجار القرار القواعد من البيانات التي تشفر العلاقات غير الخطية بين المدخلات والمخرجات. نعرض كيفية تدريب شجرة القرار لعمل تنبؤات لمشكلات الانحدار والتصنيف، وتصور وتفسير القواعد التي تعلمها النموذج، وضبط المعلمات الفائقة للنموذج لتحسين مقايضة التباين والتحيز ومنع التجاوز.
يقدم الجزء الثاني من الفصل نماذج مجمعة تجمع بين أشجار القرار المتعددة بطريقة عشوائية لإنتاج تنبؤ واحد مع خطأ أقل. ويختتم باستراتيجية طويلة وقصيرة للأسهم اليابانية بناءً على إشارات التداول الناتجة عن نموذج الغابة العشوائي.
باختصار يتناول هذا الفصل:
تعزيز التدرج هو خوارزمية مجموعة بديلة قائمة على الأشجار والتي غالبًا ما تنتج نتائج أفضل من الغابات العشوائية. والفرق الحاسم هو أن التعزيز يعدل البيانات المستخدمة لتدريب كل شجرة بناءً على الأخطاء التراكمية التي ارتكبها النموذج. في حين أن الغابات العشوائية تقوم بتدريب العديد من الأشجار بشكل مستقل باستخدام مجموعات فرعية عشوائية من البيانات، فإن تعزيز العائدات بشكل تسلسلي وإعادة وزن البيانات. يوضح هذا الفصل كيف تحقق المكتبات الحديثة أداءً مثيرًا للإعجاب وتطبق التعزيز على كل من البيانات اليومية وعالية التردد لاختبار استراتيجية التداول خلال اليوم.
وبشكل أكثر تحديدًا، سنتناول المواضيع التالية:
يعد تقليل الأبعاد والتجميع من المهام الرئيسية للتعلم غير الخاضع للرقابة:
وبشكل أكثر تحديدًا، يغطي هذا الفصل ما يلي:
البيانات النصية غنية بالمحتوى، ولكنها غير منظمة من حيث التنسيق، وبالتالي تتطلب المزيد من المعالجة المسبقة حتى تتمكن خوارزمية التعلم الآلي من استخراج الإشارة المحتملة. يتمثل التحدي الحاسم في تحويل النص إلى تنسيق رقمي لاستخدامه بواسطة خوارزمية، مع التعبير في الوقت نفسه عن دلالات المحتوى أو معناه.
تغطي الفصول الثلاثة التالية العديد من التقنيات التي تلتقط الفروق الدقيقة في اللغة التي يمكن للبشر فهمها بسهولة حتى تتمكن خوارزميات التعلم الآلي من تفسيرها أيضًا.
تعد البيانات النصية غنية جدًا بالمحتوى ولكنها غير منظمة إلى حد كبير بحيث تتطلب المزيد من المعالجة المسبقة لتمكين خوارزمية ML من استخراج المعلومات ذات الصلة. يتمثل التحدي الرئيسي في تحويل النص إلى تنسيق رقمي دون فقدان معناه. يوضح هذا الفصل كيفية تمثيل المستندات كمتجهات لعدد الرموز المميزة عن طريق إنشاء مصفوفة مصطلح المستند والتي بدورها تعمل كمدخل لتصنيف النص وتحليل المشاعر. كما يقدم أيضًا خوارزمية Naive Bayes ويقارن أدائها بالنماذج الخطية والمبنية على الأشجار.
ويتناول هذا الفصل على وجه الخصوص ما يلي:
يستخدم هذا الفصل التعلم غير الخاضع للرقابة لنمذجة الموضوعات الكامنة واستخراج الموضوعات المخفية من المستندات. يمكن لهذه المواضيع أن تولد رؤى تفصيلية حول مجموعة كبيرة من التقارير المالية. تعمل نماذج المواضيع على أتمتة إنشاء ميزات نصية متطورة وقابلة للتفسير والتي بدورها يمكن أن تساعد في استخراج إشارات التداول من مجموعات واسعة من النصوص. فهي تعمل على تسريع مراجعة المستندات، وتمكين تجميع المستندات المماثلة، وإنتاج تعليقات توضيحية مفيدة للنمذجة التنبؤية. تتضمن التطبيقات تحديد المواضيع الهامة في إفصاحات الشركة، ونصوص مكالمات الأرباح أو العقود، والتعليقات التوضيحية بناءً على تحليل المشاعر أو استخدام عوائد الأصول ذات الصلة.
وبشكل أكثر تحديدًا، فهو يغطي:
يستخدم هذا الفصل الشبكات العصبية لتعلم التمثيل المتجه للوحدات الدلالية الفردية مثل كلمة أو فقرة. هذه المتجهات كثيفة مع بضع مئات من الإدخالات ذات القيمة الحقيقية، مقارنة بالمتجهات المتفرقة ذات الأبعاد الأعلى في نموذج حقيبة الكلمات. ونتيجة لذلك، تقوم هذه المتجهات بدمج أو تحديد موقع كل وحدة دلالية في مساحة متجهة مستمرة.
تنتج عمليات التضمين من تدريب النموذج على ربط الرموز المميزة بسياقها مع الاستفادة من أن الاستخدام المماثل ينطوي على ناقل مماثل. ونتيجة لذلك، فإنها تقوم بتشفير الجوانب الدلالية مثل العلاقات بين الكلمات من خلال موقعها النسبي. إنها ميزات قوية سنستخدمها مع نماذج التعلم العميق في الفصول التالية.
وبشكل أكثر تحديدًا، سنتناول في هذا الفصل ما يلي:
يشرح الجزء الرابع ويوضح كيفية الاستفادة من التعلم العميق للتداول الخوارزمي. إن القدرات القوية لخوارزميات التعلم العميق لتحديد الأنماط في البيانات غير المنظمة تجعلها مناسبة بشكل خاص للبيانات البديلة مثل الصور والنصوص.
تظهر نماذج التطبيقات، على سبيل المثال، كيفية الجمع بين بيانات النص وبيانات الأسعار للتنبؤ بمفاجآت الأرباح من إيداعات هيئة الأوراق المالية والبورصة، وإنشاء سلاسل زمنية اصطناعية لتوسيع كمية بيانات التدريب، وتدريب وكيل تداول باستخدام التعلم المعزز العميق. العديد من هذه التطبيقات تكرر الأبحاث المنشورة مؤخرًا في أفضل المجلات.
يعرض هذا الفصل الشبكات العصبية المغذية (NN) ويوضح كيفية تدريب النماذج الكبيرة بكفاءة باستخدام الانتشار العكسي مع إدارة مخاطر التجهيز الزائد. ويوضح أيضًا كيفية استخدام TensorFlow 2.0 وPyTorch وكيفية تحسين بنية NN لإنشاء إشارات التداول. وفي الفصول التالية، سنبني على هذا الأساس لتطبيق بنى مختلفة على تطبيقات الاستثمار المختلفة مع التركيز على البيانات البديلة. وتشمل هذه الشبكات NN المتكررة المصممة خصيصًا للبيانات المتسلسلة مثل السلاسل الزمنية أو اللغة الطبيعية والشبكات التلافيفية، وهي مناسبة بشكل خاص لبيانات الصورة. سنغطي أيضًا التعلم العميق غير الخاضع للرقابة، مثل كيفية إنشاء بيانات تركيبية باستخدام شبكات الخصومة التوليدية (GAN). علاوة على ذلك، سنناقش التعلم المعزز لتدريب العملاء الذين يتعلمون بشكل تفاعلي من بيئتهم.
على وجه الخصوص، سوف يغطي هذا الفصل
تستمر بنيات CNN في التطور. يصف هذا الفصل العناصر الأساسية المشتركة في التطبيقات الناجحة، ويوضح كيف يمكن أن يؤدي نقل التعلم إلى تسريع عملية التعلم، وكيفية استخدام شبكات CNN للكشف عن الأشياء. يمكن لشبكات CNN إنشاء إشارات تداول من الصور أو بيانات السلاسل الزمنية. يمكن لبيانات الأقمار الصناعية توقع اتجاهات السلع من خلال الصور الجوية للمناطق الزراعية أو المناجم أو شبكات النقل. يمكن أن تساعد لقطات الكاميرا في التنبؤ بنشاط المستهلك؛ نعرض كيفية بناء شبكة CNN التي تصنف النشاط الاقتصادي في صور الأقمار الصناعية. يمكن لشبكات CNN أيضًا تقديم نتائج تصنيف سلاسل زمنية عالية الجودة من خلال استغلال تشابهها الهيكلي مع الصور، ونقوم بتصميم استراتيجية تعتمد على بيانات السلاسل الزمنية المنسقة مثل الصور.
وبشكل أكثر تحديدًا، يغطي هذا الفصل ما يلي:
تقوم الشبكات العصبية المتكررة (RNNS) بحساب كل مخرج كدالة للإخراج السابق والبيانات الجديدة ، وإنشاء نموذج بفعالية مع ذاكرة تشترك في معلمات عبر رسم بياني حسابي أعمق. تشمل البنى البارزة ذاكرة طويلة الأجل طويلة الأجل (LSTM) ووحدات متكررة بوابات (GRU) تعالج تحديات تعلم التبعيات بعيدة المدى. تم تصميم RNNs لتعيين تسلسل إدخال واحد أو أكثر إلى تسلسل إخراج واحد أو أكثر وهي مناسبة بشكل خاص للغة الطبيعية. يمكن أيضًا تطبيقها على سلسلة زمنية أحادية المتغير ومتعددة المتغيرات للتنبؤ بالبيانات أو البيانات الأساسية. يغطي هذا الفصل كيف يمكن لـ RNN تصميم بيانات نص بديلة باستخدام كلمة تضمينات قمنا بتغطيتها في الفصل 16 لتصنيف المشاعر المعبر عنها في المستندات.
وبشكل أكثر تحديدًا ، يعالج هذا الفصل:
يوضح هذا الفصل كيفية الاستفادة من التعلم العميق غير الخاضع للإشراف للتداول. نناقش أيضًا أجهزة الترميز التلقائي ، وهي شبكة عصبية تم تدريبها على إعادة إنتاج المدخلات أثناء تعلم تمثيل جديد مشفر بواسطة معلمات طبقة مخفية. لطالما تم استخدام أجهزة الترميز التلقائي في الحد من الأبعاد غير الخطية ، حيث تم الاستفادة من بنيات NN التي قمنا بتغطيتها في الفصول الثلاثة الأخيرة. نكرر ورقة AQR حديثة توضح كيف يمكن لعمليات الترميز التلقائي دعم استراتيجية التداول. سوف نستخدم شبكة عصبية عميقة تعتمد على مشفر تلقائي لاستخراج عوامل الخطر والتنبؤ بعوائد الأسهم ، مشروطة على مجموعة من سمات الأسهم.
بشكل أكثر تحديدا ، في هذا الفصل سوف تتعلم عن:
يقدم هذا الفصل شبكات الخصومة (GAN). تقوم Gans بتدريب مولد وشبكة تمييز في إعداد تنافسي بحيث يتعلم المولد إنتاج عينات لا يمكن للمميّز التمييز بينها عن فئة معينة من بيانات التدريب. الهدف من ذلك هو العائد على نموذج توليدي قادر على إنتاج عينات اصطناعية من هذه الفئة. على الرغم من أن الأكثر شعبية مع بيانات الصورة ، فقد تم استخدام GANS أيضًا لإنشاء بيانات سلسلة زمنية اصطناعية في المجال الطبي. تم استكشاف التجارب اللاحقة مع البيانات المالية ما إذا كان يمكن لـ GANS أن تنتج مسارات أسعار بديلة مفيدة لتدريب ML أو اختبارات الاستراتيجية. نكرر ورقة GAN للسلسلة الزمنية لعام 2019 لتوضيح النهج وإظهار النتائج.
بشكل أكثر تحديدا ، في هذا الفصل سوف تتعلم عن:
نماذج التعلم التعزيز (RL) نماذج التعلم الموجه من قبل وكيل يتفاعل مع بيئة عشوائية. تقوم RL بتحسين قرارات الوكيل فيما يتعلق بهدف طويل الأجل من خلال تعلم قيمة الحالات والإجراءات من إشارة المكافأة. الهدف النهائي هو استخلاص سياسة تشفر القواعد السلوكية وخرائط الدول إلى الإجراءات. يوضح هذا الفصل كيفية صياغة وحل مشكلة RL. ويغطي طرقًا قائمة على النماذج وخالية من النماذج ، ويقدم بيئة Openai Gym ، ويجمع بين التعلم العميق مع RL لتدريب وكيل يتنقل في بيئة معقدة. أخيرًا ، سنعرض لك كيفية تكييف RL مع التداول الخوارزمي من خلال نمذجة وكيل يتفاعل مع السوق المالي أثناء محاولة تحسين وظيفة موضوعية.
بشكل أكثر تحديدًا ، سيغطي هذا الفصل:
في هذا الفصل الختامي ، سنلخص بإيجاز الأدوات والتطبيقات والدروس الأساسية المستفادة في جميع أنحاء الكتاب لتجنب فقدان رؤية الصورة الكبيرة بعد الكثير من التفاصيل. سنحدد بعد ذلك المجالات التي لم نغطيها ، لكننا سنستحق التركيز عليها أثناء توسيعك في العديد من تقنيات التعلم الآلي الذي قدمناه وتصبح منتجًا في استخدامه اليومي.
باختصار ، في هذا الفصل ، سنفعل
خلال هذا الكتاب ، أكدنا على كيفية التصميم الذكي للميزات ، بما في ذلك المعالجة المسبقة المناسبة وتوضيح ، عادةً ما يؤدي إلى استراتيجية فعالة. يقوم هذا التذييل بتجميع بعض الدروس المستفادة في هندسة الميزات وتوفر معلومات إضافية حول هذا الموضوع الحيوي.
تحقيقًا لهذه الغاية ، نركز على النطاق الواسع من المؤشرات التي تنفذها TA-LIB (انظر الفصل 4) وورقة Alphas 101 من Worldquant (Kakushadze 2016) ، والتي تقدم عوامل تداول كمية واقعية تستخدم في الإنتاج مع فترة عقد متوسط من 0.6-6.4 أيام.
يغطي هذا الفصل: