Menggabungkan algoritma klasifikasi untuk memprediksi pemenang setiap pertandingan bisbol profesional
Kyle Johnson
Entri blog: https://kylejohnson363.github.io/sourcing_mlb_data
Kemampuan untuk memprediksi masa depan, bahkan sedikit lebih baik daripada melempar koin, bisa sangat menguntungkan. Tanpa memiliki bola kristal, hal terbaik berikutnya yang dapat kita lakukan adalah memanfaatkan kekuatan kumpulan data besar untuk menemukan pola tersembunyi yang dapat digunakan untuk memberikan sedikit keunggulan dalam membuat prediksi dalam jumlah besar. Bisbol sangat cocok untuk ini karena hampir semua yang terjadi dapat diukur dan diulang ratusan kali per pertandingan dan setiap pertandingan diulang ribuan kali per tahun. Tujuan dari proyek ini adalah menggunakan teknik pembelajaran mesin untuk membuat prediksi tentang permainan Major League Basebal sedemikian rupa sehingga lebih baik daripada pembuat buku Vegas. Mampu memprediksi 70% permainan dengan benar tidak ada gunanya jika Vegas juga memprediksi permainan yang sama dengan benar; untuk mendapatkan model yang berguna, saya harus membuat model yang secara konsisten menghasilkan uang saat bertaruh melawan bandar taruhan Vegas.
Silakan lihat buku catatan berjudul "Summary_Start_Here" untuk mengetahui peta jalan terperinci melalui proyek ini agar dapat memahami prosesnya sepenuhnya.
Data untuk proyek ini bersumber dari API MLB Advanced Media, baseball-reference.com dan sportsbookreviewonline.com dan kemudian diolah terlebih dahulu menjadi bentuk yang berguna. Empat model klasifikasi kemudian dibuat dan dioptimalkan, yang kemudian menggunakan prosedur voting untuk membuat prediksi akhir.
Tolok ukur kinerja proyek ini adalah prediksi yang dibuat oleh para pembuat peluang di Vegas. Jika model yang dibuat dapat menghasilkan uang dengan bertaruh melawan Vegas, maka kita tahu model tersebut memiliki nilai tambah. Di bawah ini adalah grafik yang menunjukkan hubungan antara keyakinan yang dimiliki Vegas terhadap sebuah prediksi vs persentase waktu prediksi tersebut benar. Garis oranye dan biru cukup berkorelasi, artinya Vegas cukup pandai dalam memprediksi permainan, yang masuk akal karena jika tidak, bisnis mereka akan gulung tikar dengan sangat cepat.
Model terakhir mampu mengungguli pembuat peluang Vegas dengan signifikansi statistik baik dalam keakuratan pilihan dan laba atas risiko yang dihasilkan dengan memasang taruhan pada permainan yang diprediksi.
Di bawah ini adalah visualisasi kinerja akun taruhan simulasi pada data di luar sampel yang dimulai dengan $1.000.
-Saya mampu membuat model yang memprediksi permainan MLB dengan lebih akurat dan menguntungkan daripada peluang Vegas dengan cara yang signifikan secara statistik. Saya melakukan ini dengan menanyakan data dari beberapa database bisbol online dan kemudian mengoptimalkan beberapa model klasifikasi yang berbeda, sebelum menggabungkannya untuk memberikan suara pada hasil setiap pertandingan.
-Anehnya, tampaknya selalu bertaruh dengan odds Vegas adalah strategi yang menguntungkan tetapi menggunakan model yang dibuat dalam proyek ini berpotensi dua kali lebih menguntungkan. Hal ini memberitahu kita bahwa Vegas pandai memprediksi permainan MLB tetapi masih terdapat inefisiensi yang dapat dimanfaatkan.
Gunakan lebih banyak jenis data (statistik baru dan sangat canggih) dan lebih banyak pertandingan dari musim sebelumnya.
Optimalkan jumlah hari dalam kategori statistik "terbaru".
Otomatiskan proses pengumpulan data yang diperlukan untuk permainan hari ini dan publikasikan laporan permainan mana yang akan dipertaruhkan.
Buat "prediksi kecil" seperti lari yang akan dinilai atau diizinkan dan masukkan prediksi tersebut ke dalam model klasifikasi.