นักเล่นสเก็ตบอร์ดสามารถจดจำเทคนิคการเล่นของนักเล่นสเก็ตบอร์ดคนอื่นๆ ได้อย่างง่ายดาย เป้าหมายของเราในโครงการนี้คือการสอนคอมพิวเตอร์ให้รู้จักเทคนิคการเล่นสเก็ตบอร์ด จากวิดีโอการเล่นสเก็ตบอร์ด คอมพิวเตอร์สามารถจำแนกประเภทการเล่นสเก็ตบอร์ดที่มีความเป็นไปได้สูงได้หรือไม่ เราได้พัฒนาชุดข้อมูลและโมเดลการเรียนรู้ของเครื่องที่สามารถแยกแยะความแตกต่างระหว่างเทคนิคการเล่นสเก็ตบอร์ด ollies และคิกฟลิปที่พบบ่อยที่สุด
เราเริ่มต้นด้วยการรวบรวมวิดีโอสั้น ๆ ของ Kickflips และ Ollies มากกว่า 200 รายการ (1 ถึง 2 วินาที) เราได้ปรับวิธีการที่อธิบายไว้ใน Hands on Computer Vision with Tensorflow เข้ากับชุดข้อมูลใหม่ของเรา ข้อมูลเริ่มต้นเป็นวิดีโอ จากนั้นส่งผ่านโครงข่ายประสาทเทียมแบบหมุนวน (CNN) จากนั้นผ่านแบบจำลองหน่วยความจำระยะสั้นระยะยาว (LSTM) และสุดท้ายคือเอาต์พุตของความน่าจะเป็นที่วิดีโอจะแสดงถึงเทคนิคแต่ละประเภท
ตัวอย่างเช่น ที่นี่ Stephen ทำการคิกฟลิป:
แบบจำลองทำนายว่านี่คือคิกฟลิปที่มีความน่าจะเป็น 0.9 ดังนั้นจึงทำงานได้ดี เราพบว่าวิดีโอที่ชัดเจนซึ่งเห็นทั้งตัวของนักเล่นสเก็ตบอร์ดทำได้ดีกว่าวิดีโอที่แสดงเฉพาะขาของนักเล่นสเก็ตบอร์ดเท่านั้น นอกจากนี้เรายังพบว่าแบบจำลองสามารถทำนายการถีบตัวลงบันไดได้อย่างถูกต้อง แม้ว่าข้อมูลการฝึกทั้งหมดจะเป็นการเล่นบนพื้นราบก็ตาม นี่แสดงให้เห็นว่าแบบจำลองสามารถสรุปสถานการณ์ใหม่และแตกต่างออกไปได้
เพื่อพัฒนางานนี้ต่อไป เราสามารถเพิ่มลูกเล่นอื่นๆ นอกเหนือจาก Kickflips และ Ollies ได้ เช่นเดียวกับการผสมผสานลูกเล่นต่างๆ เช่น Backside 180 Kickflip ด้วยข้อมูลการฝึกที่มากขึ้นและการปรับแต่งโมเดลที่มากขึ้น โมเดลนี้อาจทำได้ดีพอที่จะแข่งขันกับนักสเก็ตบอร์ดที่เป็นมนุษย์ได้
ขอขอบคุณ Justin Wang และ Vessela Ensberg สำหรับความช่วยเหลือในโครงการนี้
ข้อมูลวิดีโอที่มีป้ายกำกับอยู่ในไดเรกทอรี Tricks
ของที่เก็บนี้ มีไดเรกทอรีย่อยสองรายการ ได้แก่ Ollie
ซึ่งมีวิดีโอ 108 รายการของนักเล่นสเก็ตบอร์ดเล่น Ollie และ Kickflip
ซึ่งมีวิดีโอ 114 รายการของนักเล่นสเก็ตบอร์ดเล่น Kickflip แต่ละไฟล์ในไดเร็กทอรีเหล่านี้เป็นคลิปสั้นประมาณ 2 วินาที ในรูปแบบ .mov
(QuickTime) หากต้องการใช้ข้อมูลนี้สำหรับการเรียนรู้ของเครื่องภายใต้การดูแล ให้ฝึกโมเดลกับข้อมูลในไดเร็กทอรี Tricks
โดยใช้ไดเร็กทอรีย่อยเป็นป้ายกำกับ
คุณมีอิสระที่จะใช้ข้อมูลนี้เพื่อวัตถุประสงค์ทางวิชาการ หากคุณอ้างอิงงานนี้
จำแนกเทคนิคการเล่นสเก็ตบอร์ด
โปรเจ็กต์นี้ใช้คำที่ง่ายที่สุดในการจำแนกเทคนิคการเล่นสเก็ตบอร์ด เรากำลังพยายามใช้การเรียนรู้ของเครื่องเพื่อจำแนกเคล็ดลับการเล่นสเก็ตบอร์ดแต่ละข้อ มีเทคนิคการเล่นสเก็ตบอร์ดมากมายที่เราเลือกมาสองข้อเพื่อแยกประเภทระหว่างนั้น เราเลือกระหว่าง Ollie และ Kickflip
ดังนั้นอัลกอริธึมนั้นจะรับอินพุตเหมือนด้านบน และระบุความน่าจะเป็นว่ามันคือออลลี่หรือคิกฟลิป
16 มิถุนายน สิ่งที่ต้องทำ:
23 มิถุนายน สิ่งที่ต้องทำ:
30 มิถุนายนสิ่งที่ต้องทำ:
7 กรกฎาคม:
15 กรกฎาคม:
21 กรกฎาคม:
28 กรกฎาคม:
4 สิงหาคม:
เป้าหมายของเราคือการค้นหาเทคนิคที่เหมาะสมสำหรับคลิปวิดีโอความยาว 1-2 วินาที เราวางแผนที่จะใช้วิธีใดก็ตามที่สะดวกและมีความสามารถที่สุดเพื่อทำให้สิ่งนั้นประสบความสำเร็จ
แผนของเราในการประมวลผลข้อมูลล่วงหน้าคือการสุ่มตัวอย่างวิดีโอตามจำนวนเฟรมและความละเอียดที่สอดคล้องกัน ตัวอย่างเช่น แต่ละวิดีโอสามารถประกอบด้วย 30 เฟรม ซึ่งแต่ละเฟรมมีรูปภาพขนาด 480 x 360 (360p) ดังนั้นทุกวิดีโอจึงกลายเป็นอาร์เรย์ 3 มิติ (หรือเทนเซอร์) ที่มีขนาด 480 x 360 x 30 ข้อมูลเหล่านี้เป็นอินพุตของ แบบอย่าง. สีไม่สำคัญสำหรับการจำแนกประเภทกลโกง ดังนั้นเราจึงสามารถเปลี่ยนเป็นขาวดำได้
แนวคิดทั่วไปคือการสร้างโครงข่ายประสาทเทียมแบบหมุนวน (CNN) โดยคร่าวๆ ตามแนวทางการจัดหมวดหมู่ภาพ
CNN สำหรับรูปภาพจะรวมข้อมูลเชิงพื้นที่จากพิกเซลใกล้เคียงโดยใช้ตัวกรองแบบ Convolution เราควรทำเช่นเดียวกันกับพิกเซลที่อยู่ใกล้กันทันเวลาหรือไม่? บทช่วยสอนของ Google ใช้การบิดแบบ 2 มิติ มีเหตุผลใดบ้างที่เราไม่สามารถใช้การบิดแบบ 3 มิติได้? แน่นอนว่าเทนเซอร์โฟลว์ก็มีอันหนึ่ง และมีบทความวิชาการยอดนิยมมากมายที่ทำเรื่องนี้อยู่ หวังว่าเราจะต่อยอดแนวคิดเหล่านี้ได้