وضع بيانات تتبع لأباريق البيسبول
README.MD - نظرة عامة قصيرة على البيانات وكيفية استخدامها
example_script.r - برنامج نصي مع أمثلة على كيفية استخدام البيانات
يمكن العثور على البيانات على رابط Dropbox التالي: https://www.dropbox.com/sh/gxxnqu9c1v0d6w/aaa8ilselselseb3_uyn03_k7vba؟dl=0
الملف الرئيسي هو pither_motion_data.csv. هذا هو ملف CSV حوالي 500 ميغابايت.
يوجد أيضًا ملف CSV مصاحب يحتوي على بيانات Statcast المقابلة للملاعب المدرجة في مجموعة البيانات هذه.
تم أخذ البيانات لأباريق/أنواع الملعب التي تم إلقاؤها 5 مرات على الأقل في Tropicana Field في موسم 2021 العادي. تم استخدام 5 عينة من مقاطع الفيديو لكل ملعب ، في كل حالة كانت هذه هي الأخيرة التي ألقاها إبريق معين.
تم استخدام حقل Tropicana لأنه يحتوي على زاوية كاميرا وسط الملعب يسهل العمل معها. يتم تضمين البيانات المحدودة فقط بسبب حجم الحساب المطلوب لقياس مواقف الإبريق.
يمكن التعرف على كل ملعب فردي بشكل فريد باستخدام ثلاثة أعمدة:
يحتوي العمود "Normalised_Frame" على متغير الوقت للملعب ، ويقاس في إطارات الفيديو (الفيديو 60 إطارًا في الثانية). هذا هو الصفر عند رفع الساق من إبريق ويمتد في كل من الاتجاهات الإيجابية والسلبية.
تم اكتشاف إبريق الإبريق تلقائيًا بناءً على موضعه في الإطار ، تم تنفيذ مزامنة الملاعب تلقائيًا باستخدام رفع الساق في إبريق. قد تكون هناك حالات فشلت فيها هذه العملية لأن خوارزمية تتبع الوضع لم تحدد الرامي ، أو لم يتم مشاهدة جزء من حركة الإبريق في الفيديو المميز. قمت بتضمين اثنين من علم الموثوقية لإظهار متى فشلت هذه العملية.
"no_missing_frames" = 1 عندما يمكن ملاحظة الرامي بشكل مستمر من Normalised_Frame = -20 إلى +120 ، وإلا فقد تكون هناك إطارات في هذه الفترة الزمنية التي لم يتم فيها اكتشاف إبريق وبالتالي فهو مفقود من مجموعة البيانات. "smooth_com_flag" = 1 عندما لا يختلف موضع جذع الرامي بأكثر من 100 بكسل بين إطارات متتالية ، فإن هذا يزيل الحالات التي يمكن فيها اكتشاف لاعبين مختلفين كقاذف. يوفر التصفية من خلال هذين العمودين مجموعة بيانات الحركة الأكثر قوة.
تصف الأعمدة V1 إلى V51 مواقف أجزاء جسم إبريق البكسل. يتم وصف كل جزء من الجسم من خلال ثلاثة أعمدة ، والإنسارات الأفقية والرأسية هي الأولين ، لست متأكدًا من ما هو الثالث لكنني تركته في مجموعة البيانات. يتم ترك الطلب دائمًا أولاً ثم يمينًا ، ويتحرك على طول الجسم
V1-V15 هي نقاط على الرأس
V16-V21 هي الكتفين
V22-V27 هي المرفقين
V28-V33 هي اليدين
V34-V39 هي الوركين
V40-V45 هي الركبتين
V46-V51 هي القدمين
المكونات الرأسية هي عدد البكسلات من الجزء العلوي من الصورة ، لذلك تحتاج إلى أخذ (720 - متغير) من هذه للحصول على الموضع الصحيح على الصورة.
هناك أيضًا بعض المتغيرات الأخرى التي يتم تركها من تحديد الرامي ، وأيضًا متغير يحتوي على محاولة بدائية لقياس فصل الورك/الكتف من هذه البيانات ثنائية الأبعاد ، وهذا ليس قياسًا موثوقًا به!
بفضل Baseballsavant و MLB على إتاحة الفيديو البارزة بسهولة عبر الإنترنت ، والتي كانت ضرورية لجمع البيانات على هذا المقياس.
أيضًا بفضل Will McNally على Kapao ، تم إجراء جميع الكشف عن هذا الخوارزمية ، التي تم تنفيذها في Python.
https://github.com/wmcnally/kapao
هذا نوع من مجموعة البيانات التي لم تكن متاحة للجمهور من قبل ، وآمل أن يتم العثور على بعض الاستخدام.
إذا كان لديك أي اقتراحات تواصل على TwitterPitching_bot ، أو ابحث عن معلومات الاتصال الخاصة بي على موقع الويب الخاص بي
كاميرون غروف - 24/12/21