シングルショット ビデオの 3 次元モーション トラッキングは、コンピュータ ビジョンの分野において常に困難な問題であり、特にピクセル レベルの精度を追求し、長いビデオ シーケンスを処理する場合に顕著です。従来の方法は、効率、精度、堅牢性の点で多くの課題に直面しており、実際のアプリケーションのニーズを満たすことが困難です。 Downcodes の編集者が、効率的かつ正確な 3 次元モーション トラッキングにおいて大きな進歩をもたらした最新の研究結果、DELTA を紹介します。
さらに、既存のテクノロジーには高い計算要件があり、長いビデオを処理する際の効率を維持することが困難です。同時に、長期的な追跡はカメラの動きやオブジェクトの遮蔽などの問題の影響も受け、追跡エラーやエラーが発生します。
現在、ビデオ シーケンスの動き推定の方法には、それぞれ長所と短所があります。オプティカル フロー テクノロジーは高密度のピクセル トラッキングを提供しますが、複雑なシーン、特に長いシーケンスを処理する場合には復元力が不足します。
シーン フローはオプティカル フローの拡張であり、RGB-D データまたは点群を通じて密な 3 次元の動きを推定しますが、長いシーケンスに効率的に適用するのは依然として困難です。ポイント追跡手法は、動きの軌跡を捕捉し、空間的および時間的注意を組み合わせてよりスムーズな追跡を実現できますが、計算コストが高いため、高密度の監視を実現することは依然として困難です。さらに、再構成ベースの追跡方法は、変形フィールドを利用して動きを推定しますが、リアルタイムのアプリケーションでは実用的ではありません。
最近、マサチューセッツ大学アマースト校、MIT-IBM ワトソン人工知能研究所、および Snap Inc. の研究チームが、効率的な追跡のために設計された手法である DELTA (Dense Efficient Long-range3D Tracking for Any video) を提案しました。 3次元空間の各ピクセル。 DELTA は低解像度のトラッキングから開始し、時空間アテンション メカニズムを採用し、アテンションベースのアップサンプラーを適用して高解像度の精度を実現します。その主要な革新には、明確な動きの境界のためのアップサンプラー、効率的な空間注意アーキテクチャ、および追跡パフォーマンスを強化するための対数深度表現が含まれます。
DELTA は、CVO および Kubric3D データセットで高度な結果を達成し、平均 Jaccard (AJ) や 3 次元平均位置差 (APD3D) などの指標で 10% 以上改善し、TAP-Vid3D などの 3D ポイント トラッキング ベンチマークでも実行されました。そしてLSFOdysseyは素晴らしい。既存の方法とは異なり、DELTA は大規模な高密度 3D トラッキングを実現し、業界をリードする精度を維持しながら、以前の方法より 8 倍以上高速に実行します。
実験の結果、DELTA は 3 次元追跡タスクで優れたパフォーマンスを発揮し、速度と精度の両方で以前の方法を上回っていることがわかりました。 DELTA は、5600 を超えるビデオを含む Kubric データセットでトレーニングされており、その損失関数は 2D 座標、深度、可視性の損失を組み合わせています。
ベンチマーク テストでは、DELTA は長距離 2D トラッキングと高密度 3D トラッキングでそれぞれ CVO と Kubric3D で最高スコアを達成し、他の方法よりもはるかに速くタスクを完了しました。対数奥行き表現、空間的注意、注意ベースのアップサンプラーなどの DELTA の設計上の選択により、さまざまな追跡シナリオの下でその精度と効率が大幅に向上します。
DELTA は、ビデオ フレーム内のすべてのピクセルを追跡できる効率的な方法であり、高密度 3D および 3D トラッキングでの精度と実行時間の短縮を実現します。この方法は、長期間オクルージョンされたポイントでは課題に直面する可能性があり、最高のパフォーマンスは数百フレーム以下の短いビデオで得られます。 DELTA の 3D 追跡精度は、使用される単眼奥行き推定の精度と時間的安定性に依存します。単眼奥行き推定における研究の進歩により、この方法の性能がさらに向上することが期待されます。
プロジェクト入口: https://snap-research.github.io/DELTA/
全体として、DELTA は効率的な 3 次元モーション トラッキングにおいて画期的な進歩を遂げており、その高い精度、効率、拡張性により、ビデオ処理の分野で大きな応用可能性を秘めています。今後、単眼奥行き推定技術の継続的な開発により、DELTA の性能はさらに向上することが期待されます。