الجمع بين خوارزميات التصنيف للتنبؤ بالفائز في كل لعبة بيسبول احترافية
كايل جونسون
مشاركة المدونة: https://kylejohnson363.github.io/sourcing_mlb_data
إن القدرة على التنبؤ بالمستقبل، حتى لو كانت أفضل قليلاً من رمي العملة المعدنية، يمكن أن تكون مربحة للغاية. وبدون وجود كرة بلورية، فإن أفضل شيء يمكننا القيام به هو تسخير قوة مجموعات البيانات الكبيرة للعثور على أنماط مخفية يمكن استخدامها لإعطاء ميزة طفيفة في عمل كميات كبيرة من التنبؤات. لعبة البيسبول مناسبة تمامًا لهذا لأن كل ما يحدث تقريبًا قابل للقياس ويتكرر مئات المرات في المباراة الواحدة وكل لعبة تتكرر آلاف المرات سنويًا. الهدف من هذا المشروع هو استخدام تقنيات التعلم الآلي لعمل تنبؤات حول مباريات دوري البيسبول الرئيسي بطريقة أفضل من صانعي الكتب في فيغاس. إن القدرة على التنبؤ بنسبة 70% من الألعاب بشكل صحيح لا فائدة منها إذا توقعت فيغاس أيضًا تلك الألعاب نفسها بشكل صحيح؛ لكي أحصل على نموذج مفيد، يجب أن أقوم بإنشاء نموذج يجني المال باستمرار عند المراهنة ضد وكلاء المراهنات في فيغاس.
يرجى الاطلاع على دفتر الملاحظات الذي يحمل عنوان "Summary_Start_Here" للحصول على خريطة طريق مفصلة من خلال هذا المشروع لفهم العملية بشكل كامل.
تم الحصول على البيانات الخاصة بهذا المشروع من واجهة برمجة تطبيقات MLB Advanced Media، وball-reference.com، وsportsbookreviewonline.com، ثم تمت معالجتها مسبقًا وتحويلها إلى نموذج مفيد. تم بعد ذلك إنشاء أربعة نماذج تصنيف وتحسينها، والتي استخدمت بعد ذلك إجراء التصويت لإجراء التنبؤ النهائي.
معيار الأداء لهذا المشروع هو التوقعات التي وضعها صانعو الاحتمالات في فيغاس. إذا كان النموذج الذي تم إنشاؤه يمكنه كسب المال عن طريق المراهنة ضد فيغاس، فإننا نعلم أن النموذج له قيمة مضافة. يوجد أدناه رسم بياني يوضح العلاقة بين الثقة التي تتمتع بها فيغاس في التنبؤ مقابل النسبة المئوية للوقت الذي يكون فيه هذا التنبؤ صحيحًا. يرتبط الخطان البرتقالي والأزرق تمامًا، مما يعني أن فيغاس جيدة جدًا في التنبؤ بالألعاب، وهو أمر منطقي لأنها ستتوقف عن العمل بسرعة كبيرة.
كان النموذج النهائي قادرًا على التفوق في الأداء على صانعي الاحتمالات في فيغاس مع أهمية إحصائية من حيث دقة الاختيارات وعائد المخاطر الناتج عن وضع الرهانات على الألعاب المتوقعة.
فيما يلي تصور لأداء حساب الرهان المحاكى على البيانات خارج العينة بدءًا من 1000 دولار.
-لقد تمكنت من إنشاء نموذج يتنبأ بألعاب MLB بشكل أكثر دقة وأكثر ربحية من احتمالات فيغاس بطريقة ذات دلالة إحصائية. لقد قمت بذلك عن طريق الاستعلام عن البيانات من العديد من قواعد بيانات البيسبول على الإنترنت ثم تحسين العديد من نماذج التصنيف المختلفة، قبل دمجها للتصويت على نتيجة كل مباراة.
- من الغريب أنه يبدو أن المراهنة دائمًا باحتمالات فيغاس هي استراتيجية مربحة ولكن استخدام النموذج الذي تم إنشاؤه في هذا المشروع من المحتمل أن يكون مربحًا بمقدار الضعف تقريبًا. يخبرنا هذا أن فيغاس جيدة في التنبؤ بمباريات MLB ولكن لا تزال هناك أوجه قصور يمكن استغلالها.
استخدم المزيد من أنواع البيانات (الإحصائيات الجديدة والمتقدمة للغاية) والمزيد من الألعاب من المواسم السابقة.
قم بتحسين عدد الأيام في فئة الإحصائيات "الأخيرة".
أتمتة عملية جمع البيانات اللازمة لألعاب اليوم ونشر تقرير عن الألعاب التي يجب المراهنة عليها.
قم بإنشاء "تنبؤات ثانوية" مثل عمليات التشغيل التي سيتم تسجيلها أو السماح بها وإدخال تلك التنبؤات في نموذج التصنيف.