การรวมอัลกอริธึมการจัดหมวดหมู่เพื่อทำนายผู้ชนะของเกมเบสบอลมืออาชีพแต่ละเกม
ไคล์ จอห์นสัน
โพสต์ในบล็อก: https://kylejohnson363.github.io/sourcing_mlb_data
ความสามารถในการทำนายอนาคตแม้จะดีกว่าการพลิกเหรียญเพียงเล็กน้อยก็สามารถให้ผลกำไรมหาศาลได้ หากไม่มีลูกบอลคริสตัล สิ่งที่ดีที่สุดถัดไปที่เราสามารถทำได้คือควบคุมพลังของชุดข้อมูลขนาดใหญ่เพื่อค้นหารูปแบบที่ซ่อนอยู่ซึ่งสามารถนำมาใช้เพื่อเพิ่มความได้เปรียบเล็กน้อยในการคาดการณ์จำนวนมาก เบสบอลเหมาะอย่างยิ่งสำหรับสิ่งนี้ เพราะแทบทุกสิ่งที่เกิดขึ้นสามารถวัดปริมาณและทำซ้ำได้หลายร้อยครั้งต่อเกม และแต่ละเกมจะทำซ้ำหลายพันครั้งต่อปี เป้าหมายของโปรเจ็กต์นี้คือการใช้เทคนิคการเรียนรู้ของเครื่องเพื่อทำนายเกม Major League Basebal ในลักษณะที่ดีกว่าผู้ผลิตหนังสือ Vegas ความสามารถในการทำนายเกมได้ถูกต้อง 70% นั้นไม่มีประโยชน์หากเวกัสทำนายเกมเดียวกันเหล่านั้นได้อย่างถูกต้อง เพื่อให้มีโมเดลที่มีประโยชน์ ฉันต้องสร้างโมเดลที่สร้างรายได้อย่างสม่ำเสมอเมื่อเดิมพันกับเจ้ามือรับแทงเวกัส
โปรดดูสมุดบันทึกชื่อ "Summary_Start_Here" สำหรับแผนงานโดยละเอียดผ่านโครงการนี้ เพื่อให้เข้าใจกระบวนการนี้อย่างถ่องแท้
ข้อมูลสำหรับโปรเจ็กต์นี้มาจาก API ของ MLB Advanced Media, Baseball-reference.com และ sportsbookreviewonline.com จากนั้นจึงประมวลผลล่วงหน้าในรูปแบบที่มีประโยชน์ จากนั้นจึงสร้างแบบจำลองการจำแนกประเภทสี่แบบและปรับให้เหมาะสม ซึ่งจากนั้นใช้ขั้นตอนการลงคะแนนเสียงเพื่อคาดการณ์ขั้นสุดท้าย
เกณฑ์มาตรฐานประสิทธิภาพสำหรับโปรเจ็กต์นี้คือการคาดการณ์ที่ผู้สร้างอัตราต่อรองของเวกัสสร้างขึ้น หากโมเดลที่สร้างขึ้นสามารถสร้างรายได้ด้วยการเดิมพันกับเวกัส เราก็จะรู้ว่าโมเดลนั้นมีมูลค่าเพิ่ม ด้านล่างนี้เป็นกราฟที่แสดงความสัมพันธ์ระหว่างความเชื่อมั่นที่ Vegas มีในการทำนายเทียบกับเปอร์เซ็นต์ของเวลาที่การทำนายนั้นถูกต้อง เส้นสีส้มและสีน้ำเงินมีความสัมพันธ์กันค่อนข้างมาก ซึ่งหมายความว่าเวกัสสามารถทำนายเกมได้ค่อนข้างดี ซึ่งก็สมเหตุสมผลดีเพราะมิฉะนั้นพวกเขาจะเลิกกิจการอย่างรวดเร็ว
โมเดลสุดท้ายสามารถทำได้ดีกว่าผู้สร้างอัตราต่อรองของ Vegas โดยมีนัยสำคัญทางสถิติทั้งในด้านความแม่นยำของการเลือกและผลตอบแทนจากความเสี่ยงที่เกิดจากการวางเดิมพันในเกมที่คาดการณ์ไว้
ด้านล่างนี้คือการแสดงภาพประสิทธิภาพบัญชีเดิมพันจำลองเหนือข้อมูลนอกตัวอย่างที่เริ่มต้นที่ 1,000 ดอลลาร์
- ฉันสามารถสร้างแบบจำลองที่ทำนายเกม MLB ได้แม่นยำกว่าและให้ผลกำไรมากกว่าอัตราต่อรองของ Vegas ด้วยวิธีที่มีนัยสำคัญทางสถิติ ฉันทำสิ่งนี้โดยการสืบค้นข้อมูลจากฐานข้อมูลเบสบอลออนไลน์หลายแห่ง จากนั้นปรับโมเดลการจำแนกประเภทต่างๆ หลายๆ แบบให้เหมาะสม ก่อนที่จะรวมเข้าด้วยกันเพื่อโหวตผลลัพธ์ของแต่ละเกม
- น่าแปลกที่ดูเหมือนว่าการเดิมพันด้วยอัตราต่อรองของเวกัสเป็นกลยุทธ์ที่ให้ผลกำไร แต่การใช้แบบจำลองที่สร้างขึ้นในโครงการนี้อาจทำกำไรได้มากกว่าเกือบสองเท่า สิ่งนี้บอกเราว่า Vegas เก่งในการทำนายเกม MLB แต่ก็ยังมีความไร้ประสิทธิภาพที่สามารถนำไปใช้ประโยชน์ได้
ใช้ข้อมูลประเภทต่างๆ มากขึ้น (สถิติใหม่และขั้นสูง) และเกมเพิ่มเติมจากฤดูกาลที่แล้ว
ปรับจำนวนวันให้เหมาะสมในหมวดหมู่สถิติ "ล่าสุด"
ทำให้กระบวนการรวบรวมข้อมูลที่จำเป็นสำหรับเกมในปัจจุบันเป็นอัตโนมัติและเผยแพร่รายงานของเกมที่จะเดิมพัน
สร้าง "การคาดการณ์รอง" เช่น การรันที่จะทำคะแนนหรืออนุญาต และป้อนการคาดการณ์เหล่านั้นลงในโมเดลการจัดประเภท