Kombination von Klassifizierungsalgorithmen, um den Gewinner jedes professionellen Baseballspiels vorherzusagen
Kyle Johnson
Blogbeitrag: https://kylejohnson363.github.io/sourcing_mlb_data
Die Fähigkeit, die Zukunft vorherzusagen, und sei es auch nur geringfügig besser als ein Münzwurf, kann enorm lukrativ sein. Ohne eine Kristallkugel zu haben, ist das Nächstbeste, was wir tun können, die Leistungsfähigkeit großer Datenmengen zu nutzen, um versteckte Muster zu finden, die uns bei der Erstellung großer Mengen an Vorhersagen einen kleinen Vorsprung verschaffen können. Baseball ist dafür perfekt geeignet, weil praktisch alles, was passiert, quantifizierbar ist und sich hunderte Male pro Spiel wiederholt, und jedes Spiel wiederholt sich tausende Male pro Jahr. Das Ziel dieses Projekts besteht darin, maschinelle Lerntechniken zu nutzen, um Vorhersagen über Spiele der Major League Baseball auf eine Weise zu treffen, die besser ist als die der Buchmacher in Las Vegas. Die Fähigkeit, 70 % der Spiele richtig vorherzusagen, nützt nichts, wenn Vegas dieselben Spiele auch richtig vorhergesagt hat; Um ein nützliches Modell zu haben, muss ich eines entwickeln, das bei Wetten gegen Vegas-Buchmacher konstant Geld einbringt.
Eine detaillierte Roadmap durch dieses Projekt finden Sie im Notizbuch mit dem Titel „Summary_Start_Here“, damit Sie den Prozess vollständig verstehen können.
Die Daten für dieses Projekt wurden von der API von MLB Advanced Media, baseball-reference.com und sportsbookreviewonline.com, bezogen und dann in eine nützliche Form vorverarbeitet. Anschließend wurden vier Klassifizierungsmodelle erstellt und optimiert, die anschließend mithilfe eines Abstimmungsverfahrens eine endgültige Vorhersage treffen konnten.
Der Leistungsmaßstab für dieses Projekt sind die Vorhersagen, die die Vegas-Quotenmacher erstellen. Wenn das erstellte Modell durch Wetten gegen Vegas Geld verdienen kann, dann wissen wir, dass das Modell einen Mehrwert hat. Nachfolgend finden Sie eine Grafik, die die Beziehung zwischen dem Vertrauen, das Vegas in eine Vorhersage hat, und dem Prozentsatz der Zeit, in der die Vorhersage korrekt ist, zeigt. Die orangefarbenen und blauen Linien sind ziemlich korreliert, was bedeutet, dass Vegas recht gut darin ist, Spiele vorherzusagen, was Sinn macht, da das Unternehmen andernfalls sehr schnell aus dem Geschäft wäre.
Das endgültige Modell war in der Lage, die Vegas-Quotenmacher mit statistischer Signifikanz sowohl hinsichtlich der Genauigkeit der Tipps als auch der Risikorendite, die durch das Platzieren von Wetten auf die vorhergesagten Spiele erzielt wurde, zu übertreffen.
Unten finden Sie eine Visualisierung der Leistung eines simulierten Wettkontos für die Out-of-Sample-Daten, beginnend mit 1.000 $.
-Ich konnte ein Modell erstellen, das MLB-Spiele auf statistisch signifikante Weise genauer und profitabler vorhersagt als die Vegas-Quoten. Dazu habe ich Daten aus mehreren Online-Baseball-Datenbanken abgefragt und dann mehrere verschiedene Klassifizierungsmodelle optimiert, bevor ich sie kombiniert habe, um über den Ausgang jedes Spiels abzustimmen.
- Seltsamerweise scheint es, dass es eine profitable Strategie ist, immer mit den Vegas-Quoten zu wetten, aber die Verwendung des in diesem Projekt erstellten Modells ist möglicherweise fast doppelt so profitabel. Dies zeigt uns, dass Vegas gut darin ist, MLB-Spiele vorherzusagen, es aber immer noch Ineffizienzen gibt, die ausgenutzt werden können.
Nutzen Sie mehr Datentypen (neue und hochentwickelte Statistiken) und mehr Spiele aus früheren Saisons.
Optimieren Sie die Anzahl der Tage in der Statistikkategorie „aktuell“.
Automatisieren Sie den Prozess der Erfassung der erforderlichen Daten für aktuelle Spiele und der Veröffentlichung eines Berichts darüber, auf welche Spiele Sie wetten sollten.
Erstellen Sie „kleinere Vorhersagen“, z. B. zu punktende oder zuzulassende Läufe, und geben Sie diese Vorhersagen in das Klassifizierungsmodell ein.