结合分类算法来预测每场职业棒球比赛的获胜者
凯尔·约翰逊
博客文章:https://kylejohnson363.github.io/commerce_mlb_data
预测未来的能力,即使只比抛硬币好一点点,也可能带来巨大的利润。如果没有水晶球,我们能做的下一个最好的事情就是利用大型数据集的力量来找到隐藏的模式,这些模式可用于在进行大量预测时提供轻微的优势。棒球非常适合这种情况,因为几乎所有发生的事情都是可以量化的,并且每场比赛都会重复数百次,而且每场比赛每年都会重复数千次。该项目的目标是使用机器学习技术以比拉斯维加斯博彩公司更好的方式对美国职业棒球大联盟比赛进行预测。如果 Vegas 也正确预测了 70% 的比赛,那么即使能够正确预测 70% 的比赛也是没有用的;为了拥有一个有用的模型,我必须创建一个在与维加斯博彩公司对赌时持续赚钱的模型。
请参阅标题为“Summary_Start_Here”的笔记本,了解该项目的详细路线图,以便充分了解该过程。
该项目的数据来源于 MLB Advanced Media 的 API、baseball-reference.com 和 sportsbookreviewonline.com,然后预处理为有用的形式。然后创建并优化了四个分类模型,然后使用投票程序做出最终预测。
该项目的绩效基准是维加斯赔率制定者做出的预测。如果创建的模型可以通过对赌拉斯维加斯赚钱,那么我们就知道该模型具有附加值。下面的图表显示了 Vegas 的预测置信度与预测正确的时间百分比之间的关系。橙色和蓝色的线非常相关,这意味着维加斯非常擅长预测比赛,这是有道理的,因为否则它们很快就会倒闭。
最终模型在选秀准确性和对预测比赛进行投注所产生的风险回报方面均优于维加斯赔率制定者,具有统计显着性。
下面是从 1,000 美元开始的样本外数据的模拟投注账户表现的可视化。
-我能够创建一个模型,以统计上显着的方式比维加斯赔率更准确地预测 MLB 比赛,并且更有利可图。我通过查询几个在线棒球数据库的数据,然后优化几个不同的分类模型,然后将它们组合起来对每场比赛的结果进行投票来做到这一点。
- 奇怪的是,似乎总是以维加斯赔率下注是一种有利可图的策略,但使用此项目中创建的模型可能会带来几乎两倍的利润。这告诉我们,Vegas 擅长预测 MLB 比赛,但仍然存在可被利用的低效率问题。
使用更多类型的数据(新的和高度先进的统计数据)以及前几个赛季的更多比赛。
优化“最近”类别统计天数。
自动收集当今比赛的必要数据并发布关于哪些比赛下注的报告。
创建“次要预测”,例如要评分或允许的运行,并将这些预测输入到分类模型中。