スケートボーダーは、他のスケートボーダーが実行したトリックを簡単に認識できます。このプロジェクトの目標は、コンピュータにスケートボードのトリックを認識できるように教えることです。スケートボードのトリックのビデオが与えられた場合、コンピューターはそのトリックを高い確率で分類できるでしょうか?私たちは、スケートボードの最も一般的な 2 つのトリック、オーリーとキックフリップを区別できるデータセットと機械学習モデルを開発しました。
私たちはキックフリップとオーリーの 200 以上の短い (1 ~ 2 秒) ビデオを収集することから始めました。 Tensorflow を使用したコンピューター ビジョンのハンズオンで説明されているアプローチを新しいデータ セットに適用しました。データはビデオとして始まり、畳み込みニューラル ネットワーク (CNN)、次に長期短期記憶 (LSTM) モデルを通過し、最後にビデオが各クラスのトリックを描写する確率の出力に至ります。
たとえば、ここではスティーブンがキックフリップを実行しています。
モデルはこれが確率 0.9 のキックフリップであると予測しているため、うまく機能します。スケートボーダーの全身が映っている鮮明なビデオのほうが、スケートボーダーの脚だけのビデオよりも効果が高いことがわかりました。また、すべてのトレーニング データが平地でのトリックに関するものであったにもかかわらず、モデルが階段セットでのキックフリップを正確に予測できることもわかりました。これは、モデルが新しい異なる状況に一般化できたことを示しています。
この作業をさらに進めるために、キックフリップやオーリー以外のトリックや、バックサイド 180 キックフリップなどのトリックの組み合わせを追加できます。より多くのトレーニング データとより多くのモデルを調整すれば、このモデルは人間のスケートボーダーに匹敵するほど優れたものになる可能性があります。
このプロジェクトに協力してくれた Justin Wang と Vessela Ensberg に感謝します。
ラベル付きビデオ データは、このリポジトリのTricks
ディレクトリにあります。サブディレクトリは 2 つあり、 Ollie
にはオーリーを実行するスケートボーダーの 108 本のビデオが含まれ、 Kickflip
にはキックフリップを実行するスケートボーダーの 114 本のビデオが含まれています。これらのディレクトリ内の各ファイルは、 .mov
形式 (QuickTime) の約 2 秒の短いクリップです。このデータを教師あり機械学習に使用するには、サブディレクトリをラベルとして使用して、 Tricks
ディレクトリ内のデータでモデルをトレーニングします。
この研究を引用する限り、このデータを学術目的に自由に使用できます。
スケートボードのトリックの分類
このプロジェクトは、最も簡単な言葉で言うと、スケートボードのトリックを分類します。私たちは機械学習を使用してスケートボードの各トリックを分類しようとしています。スケートボードのトリックはたくさんありますが、その中間に分類するために 2 つを選択しました。オーリーとキックフリップのどちらかを選択しました。
したがって、そのアルゴリズムは上記のような入力を受け取り、それがオーリーかキックフリップであるかどうかの確率を吐き出します。
6月16日のTODO:
6月23日のトド:
6月30日のトド:
7月7日:
7月15日:
7月21日:
7月28日:
8月4日:
私たちの目標は、1 ~ 2 秒のビデオ クリップに対するトリックの合理的な分類子を考え出すことです。私たちはそれを成功させるために、最も便利で有能なアプローチを何でも使用するつもりです。
データの前処理に関する計画は、ビデオを一定のフレーム数と解像度までサンプリングすることです。たとえば、各ビデオは 30 フレームで構成され、それぞれが 480 x 360 (360p) 画像であるため、すべてのビデオは 480 x 360 x 30 の次元の 3D 配列 (またはテンソル) になります。これらは、モデル。色はトリックの分類には重要ではないため、白黒に変換することもできます。
一般的なアイデアは、画像分類のアプローチに従って畳み込みニューラル ネットワーク (CNN) を構築することです。
画像の CNN は、畳み込みフィルターを使用して、近くのピクセルからの空間的にローカルな情報を組み合わせます。時間的に近いピクセルに対しても同じことをすべきでしょうか? Google のチュートリアルでは 2D 畳み込みを使用します。 3D コンボリューションを使用できない理由はありますか?確かに、tensorflow にはそれがあります。そして、まさにこれを行っている人気のある学術論文がたくさんあります。これらのアイデアに基づいて構築できることを願っています。