يمكن للمتزلجين التعرف بسهولة على الحيل التي يؤديها المتزلجون الآخرون. هدفنا في هذا المشروع هو تعليم الكمبيوتر كيفية التعرف على حيل التزلج. بالنظر إلى مقطع فيديو لخدعة لوح التزلج، هل يستطيع الكمبيوتر تصنيف الخدعة باحتمالية عالية؟ لقد قمنا بتطوير مجموعة بيانات ونموذج للتعلم الآلي يمكنه التمييز بين اثنتين من أكثر حيل التزلج شيوعًا، وهما ollies وkickflips.
لقد بدأنا بجمع ما يزيد عن 200 مقطع فيديو قصير (من ثانية إلى ثانيتين) لحركات الركل والقفزات. لقد قمنا بتكييف النهج الموضح في التدريب العملي على رؤية الكمبيوتر باستخدام Tensorflow مع مجموعة البيانات الجديدة لدينا. تبدأ البيانات كفيديو، ثم تمر عبر شبكة عصبية تلافيفية (CNN)، ثم عبر نموذج الذاكرة طويلة المدى (LSTM)، وأخيرًا إلى مخرجات الاحتمالات التي يصور بها الفيديو كل فئة من الحيل.
على سبيل المثال، هنا يقوم ستيفن بأداء ركلة:
يتنبأ النموذج أن هذا هو ركلة ركلة مع احتمال 0.9، لذلك فهو يعمل بشكل جيد. لقد وجدنا أن مقاطع الفيديو الواضحة التي يظهر فيها جسم المتزلج بالكامل كانت أفضل من مقاطع الفيديو التي تظهر ساقي المتزلج فقط. لقد وجدنا أيضًا أن النموذج كان قادرًا على التنبؤ بشكل صحيح بالقفزة على الدرج، على الرغم من أن جميع بيانات التدريب كانت عبارة عن حيل على أرض مسطحة. وهذا يدل على أن النموذج كان قادرا على التعميم على موقف جديد ومختلف.
لمواصلة هذا العمل، يمكننا إضافة المزيد من الحيل بخلاف ركلات الركلة والأوليات، بالإضافة إلى مجموعات من الحيل، على سبيل المثال، 180 ركلة خلفية. مع المزيد من بيانات التدريب والمزيد من التغيير والتبديل في النماذج، يمكن أن يصبح هذا النموذج جيدًا بما يكفي لمنافسة المتزلج البشري.
شكرًا لجوستين وانغ وفيسيلا إنسبيرج لمساعدتهما في هذا المشروع.
توجد بيانات الفيديو المسماة في دليل Tricks
الخاص بهذا المستودع. يوجد دليلان فرعيان، Ollie
، الذي يحتوي على 108 مقاطع فيديو لمتزلجين يؤدون حركة ollie، و Kickflip
، الذي يحتوي على 114 مقطع فيديو لمتزلجين يؤدون ركلة. كل ملف من الملفات الموجودة في هذه الدلائل عبارة عن مقطع قصير، حوالي ثانيتين، بتنسيق .mov
(QuickTime). لاستخدام هذه البيانات للتعلم الآلي الخاضع للإشراف، قم بتدريب النموذج على البيانات الموجودة في دليل Tricks
، باستخدام الدلائل الفرعية كتسميات.
ولك الحرية في استخدام هذه البيانات للأغراض الأكاديمية، بشرط أن تستشهد بهذا العمل.
تصنيف حيل التزلج
يصنف هذا المشروع بأبسط الكلمات حيل لوح التزلج. نحن نحاول استخدام التعلم الآلي لتصنيف كل خدعة للتزلج. هناك الكثير من حيل التزلج التي اخترنا اثنتين منها لتصنيفها بينهما. لقد اخترنا بين Ollie وKickflip.
لذا فإن هذه الخوارزمية ستأخذ مدخلاً كما هو مذكور أعلاه وتبرز احتمالية مدى التأكد من أنها حركة أو ركلة.
16 يونيو المهام:
23 يونيو، المهام:
30 يونيو، المهام:
7 يوليو:
15 يوليو:
21 يوليو:
28 يوليو:
4 أغسطس:
هدفنا هو التوصل إلى تصنيف معقول للحيل لمقاطع فيديو مدتها 1-2 ثانية. ونحن نخطط لاستخدام أي الأساليب الأكثر ملاءمة وقدرة لتحقيق ذلك النجاح.
تتمثل خطتنا للمعالجة المسبقة للبيانات في أخذ عينات من مقاطع الفيديو إلى عدد ثابت من الإطارات والدقة. على سبيل المثال، يمكن أن يتكون كل فيديو من 30 إطارًا، كل منها عبارة عن صورة مقاس 480 × 360 (360 بكسل)، بحيث يصبح كل فيديو عبارة عن مصفوفة ثلاثية الأبعاد (أو موتر) بأبعاد 480 × 360 × 30. هذه هي المدخلات إلى نموذج. اللون ليس مهمًا لتصنيف الخدع، لذا يمكننا أيضًا التحول إلى الأسود والأبيض.
الفكرة العامة هي بناء شبكة عصبية تلافيفية (CNN)، باتباع نهج تصنيف الصور تقريبًا.
تجمع CNN للصور المعلومات المحلية المكانية من وحدات البكسل القريبة باستخدام مرشحات الالتواء. هل يجب أن نفعل الشيء نفسه مع وحدات البكسل المتقاربة في الوقت المناسب؟ يستخدم برنامج Google التعليمي التفافًا ثنائي الأبعاد. هل هناك أي سبب يمنعنا من استخدام الإلتواء ثلاثي الأبعاد؟ بالتأكيد، Tensorflow لديه واحد. وهناك العديد من الأبحاث الأكاديمية المشهورة التي تقوم بذلك بالضبط. ونأمل أن نتمكن من البناء على هذه الأفكار.