分類アルゴリズムを組み合わせてプロ野球の各試合の勝者を予測する
カイル・ジョンソン
ブログ投稿: https://kylejohnson363.github.io/sourcing_mlb_data
未来を予測する能力は、たとえコイントスよりもわずかに優れていても、莫大な利益をもたらす可能性があります。水晶玉を持たない私たちにできる次善の策は、大規模なデータセットの力を利用して、大量の予測を行う際にわずかに優位性を与えるために使用できる隠れたパターンを見つけることです。野球は、実際に起こることはすべて定量化でき、試合ごとに何百回も繰り返され、各試合が年間何千回も繰り返されるため、これに最適です。このプロジェクトの目標は、機械学習技術を使用して、ラスベガスのブックメーカーよりも優れた方法でメジャー リーグの試合を予測することです。ゲームの 70% を正確に予測できても、Vegas が同じゲームを正確に予測した場合は役に立ちません。有用なモデルを作成するには、ラスベガスのブックメーカーに賭けるときに一貫して利益を得るモデルを作成する必要があります。
プロセスを完全に理解するために、このプロジェクトの詳細なロードマップについては、「 Summary_Start_Here 」というタイトルのノートブックを参照してください。
このプロジェクトのデータは、MLB アドバンスト メディアの API、baseball-reference.com および sportsbookreviewonline.com から取得され、有用な形式に前処理されています。次に、4 つの分類モデルが作成および最適化され、投票手順を使用して最終的な予測が行われました。
このプロジェクトのパフォーマンス ベンチマークは、ラスベガスのオッズメーカーが作成した予測です。作成されたモデルがラスベガスに賭けてお金を稼ぐことができれば、そのモデルには付加価値があることがわかります。以下は、Vegas が予測に対して持つ信頼度と、予測が正しい時間の割合との関係を示すグラフです。オレンジと青の線は非常に相関性があり、ラスベガスがゲームの予測に非常に優れていることを意味します。そうでなければすぐに廃業してしまうため、これは当然のことです。
最終的なモデルは、ピックの精度と、予測された試合に賭けることによって生成されるリスク利益率の両方において、統計的に有意な点でラスベガスのオッズメーカーを上回るパフォーマンスを発揮することができました。
以下は、1,000 ドルから始まるサンプル外データに対するシミュレートされたベッティング アカウントのパフォーマンスを視覚化したものです。
-統計的に有意な方法で、ラスベガスのオッズよりも正確かつ収益性の高い MLB の試合を予測するモデルを作成することができました。これを行うには、いくつかのオンライン野球データベースのデータをクエリし、いくつかの異なる分類モデルを最適化し、それらを組み合わせて各試合の結果に投票しました。
-奇妙なことに、常にラスベガスのオッズで賭けることが収益性の高い戦略であるように思えますが、このプロジェクトで作成されたモデルを使用すると、潜在的にほぼ 2 倍の収益性が得られます。これは、ラスベガスは MLB の試合を予測することに優れているものの、悪用される可能性のある非効率性が依然として存在することを示しています。
より多くの種類のデータ (新しく高度な統計) と前シーズンのより多くの試合を使用します。
統計の「最近」カテゴリの日数を最適化します。
今日のゲームに必要なデータを収集し、どのゲームに賭けるかに関するレポートを公開するプロセスを自動化します。
スコア付けまたは許可される実行などの「マイナー予測」を作成し、それらの予測を分類モデルにフィードします。