Combinando algoritmos de clasificación para predecir el ganador de cada partido de béisbol profesional
kyle johnson
Publicación de blog: https://kylejohnson363.github.io/sourcing_mlb_data
La capacidad de predecir el futuro, aunque sea ligeramente mejor que lanzar una moneda al aire, puede resultar enormemente lucrativa. Sin tener una bola de cristal, lo mejor que podemos hacer es aprovechar el poder de grandes conjuntos de datos para encontrar patrones ocultos que puedan usarse para dar una ligera ventaja al hacer grandes cantidades de predicciones. El béisbol es perfecto para esto porque prácticamente todo lo que sucede es cuantificable y se repite cientos de veces por juego y cada juego se repite miles de veces al año. El objetivo de este proyecto es utilizar técnicas de aprendizaje automático para hacer predicciones sobre los juegos de la Major League Basebal de una manera que sea mejor que las casas de apuestas de Las Vegas. Ser capaz de predecir correctamente el 70% de los juegos no sirve de nada si Vegas también predijo correctamente esos mismos juegos; Para tener un modelo útil, debo crear uno que genere dinero consistentemente al apostar contra las casas de apuestas de Las Vegas.
Consulte el cuaderno titulado "Summary_Start_Here" para obtener una hoja de ruta detallada a través de este proyecto para comprender completamente el proceso.
Los datos para este proyecto se obtuvieron de la API de MLB Advanced Media, baseball-reference.com y sportsbookreviewonline.com y luego se procesaron previamente en un formato útil. Luego se crearon y optimizaron cuatro modelos de clasificación, que luego utilizaron un procedimiento de votación para hacer una predicción final.
El punto de referencia de rendimiento para este proyecto son las predicciones que crean los creadores de apuestas de Las Vegas. Si el modelo creado puede ganar dinero apostando contra Las Vegas, entonces sabemos que el modelo tiene valor añadido. A continuación se muestra un gráfico que muestra la relación entre la confianza que Vegas tiene en una predicción y el porcentaje de tiempo en que la predicción es correcta. Las líneas naranja y azul están bastante correlacionadas, lo que significa que Vegas es bastante buena para predecir juegos, lo cual tiene sentido porque de lo contrario cerrarían muy rápidamente.
El modelo final fue capaz de superar a los creadores de apuestas de Las Vegas con significación estadística tanto en la precisión de las selecciones como en el retorno del riesgo generado al realizar apuestas en los juegos previstos.
A continuación se muestra una visualización del rendimiento de una cuenta de apuestas simulada sobre datos fuera de la muestra que comienzan con $1000.
-Pude crear un modelo que predice los juegos de la MLB con mayor precisión y rentabilidad que las probabilidades de Las Vegas de una manera estadísticamente significativa. Lo hice consultando datos de varias bases de datos de béisbol en línea y luego optimizando varios modelos de clasificación diferentes, antes de combinarlos para votar sobre el resultado de cada juego.
-Curiosamente, parece que apostar siempre con las cuotas de Las Vegas es una estrategia rentable pero utilizar el modelo creado en este proyecto es potencialmente casi el doble de rentable. Esto nos dice que Vegas es bueno para predecir los juegos de la MLB, pero todavía hay ineficiencias que pueden explotarse.
Utiliza más tipos de datos (estadísticas nuevas y muy avanzadas) y más partidos de temporadas anteriores.
Optimice la cantidad de días en la categoría de estadísticas "recientes".
Automatiza el proceso de recopilación de los datos necesarios para los juegos de hoy y publica un informe sobre en qué juegos apostar.
Cree "predicciones menores", como carreras que se puntuarán o permitirán, e introduzca esas predicciones en el modelo de clasificación.