Meta の SAM モデルは、画像セグメンテーションの分野では良好に機能しますが、ビデオ オブジェクトの追跡では、特に複雑なシーンで追跡結果が不十分になるという欠点があります。ワシントン大学の研究者は SAMURAI モデルを開発し、SAM2 を改良し、ビデオ オブジェクト追跡のパフォーマンスを大幅に向上させました。 SAMURAI は、時間動作の合図と動作認識の記憶選択メカニズムを巧みに組み合わせており、高度に熟練した戦士のように、オブジェクトの移動軌跡を正確に予測し、最も信頼できるマスクを選択できます。
Meta が発表した「すべてをセグメント化」モデル SAM は、画像セグメンテーションの分野では無敵ですが、ビデオ オブジェクト トラッキングに関しては、特に大勢の人がいるシーンや高速で移動するターゲットなどでは、思うように動作することができません。 、または「かくれんぼ」をしていると混乱します。これは、SAM モデルのメモリ メカニズムが「固定ウィンドウ」のようなものであり、最新の画像のみを記録し、メモリ内容の品質を無視するため、ビデオ内でエラーが伝播し、トラッキング効果が大幅に低下するためです。
この問題を解決するために、ワシントン大学の研究者らは「真剣に考え」、最終的に SAM2 を「悪魔的に改造」した SAMURAI と呼ばれるモデルを開発しました。特にビデオ オブジェクトの追跡を実現するために使用されました。 SAMURAI の名前は非常に横暴で、ブラシが 2 つあります。時間動作の手がかりと、新しく提案された動作認識メモリ選択メカニズムを組み合わせたもので、高度に熟練した戦士のように、オブジェクトの移動軌跡を正確に予測し、マスク選択を改善し、最終的には堅牢な機能を実現します。 、再トレーニングや微調整を必要とせずに正確な追跡が可能です。
SAMURAI の秘密は 2 つの主要な革新にあります。
最初のヒント: モーション モデリング システム。このシステムは武士の「鷲の目」のようなもので、複雑なシーンにおけるオブジェクトの位置をより正確に予測することができ、それによってサムライが類似のオブジェクトに混乱しないようにマスクの選択を最適化します。
2 番目の動き: 運動知覚記憶選択メカニズム。 SAMURAI は、SAM2 の単純な「固定ウィンドウ」メモリ メカニズムを放棄し、その代わりに、侍が慎重に武器を選択するのと同じように、生のマスクの類似性、オブジェクトおよびモーションのスコアを組み合わせたハイブリッド スコアリング システムを採用し、最も関連性の高い履歴情報のみを保持することで、全体的な追跡の信頼性を向上させます。モデルの最適化を行い、エラーの伝播を回避します。
SAMURAI は武道の熟練度が高いだけでなく、機敏でリアルタイムに行動することができます。さらに重要なのは、さまざまなベンチマーク データ セットで強力なゼロサンプル パフォーマンスを実証していることです。これは、特別なトレーニングなしでさまざまなシナリオに適応でき、強力な一般化機能を実証していることを意味します。
フィールドテストでは、SAMURAI は成功率と精度の両方で既存のトラッカーに比べて大幅な向上を達成しました。たとえば、LaSOText データ セットでは 7.1% の AUC ゲインが得られ、GOT-10k データ セットでは 3.5% の AO ゲインが得られます。 さらに驚くべきことは、LaSOT データセットで完全に教師ありの手法に匹敵する結果さえ達成していることです。これは、複雑な追跡シナリオにおけるその威力と、動的環境における実用化の大きな可能性を完全に証明しています。
SAMURAI の成功は、モーション情報を巧みに利用したことにあります。 研究者らは、従来のカルマン フィルターと SAM2 を組み合わせて、モデルが物体の位置とサイズを予測することで複数の候補マスクから最も信頼性の高いマスクを選択できるようにしました。 さらに、3 つのスコア (マスク類似性スコア、オブジェクト出現スコア、モーション スコア) に基づいてメモリ選択メカニズムも設計されており、これら 3 つのスコアがしきい値に達した場合にのみ、メモリ バンクが選択されます。この選択的記憶メカニズムにより、無関係な情報からの干渉が効果的に回避され、追跡精度が向上します。
SAMURAI の登場は、ビデオ オブジェクト トラッキングの分野に新たな希望をもたらします。パフォーマンスにおいて既存のトラッカーを上回るだけでなく、再トレーニングや微調整が不要で、さまざまなシナリオに簡単に適用できます。将来的には、自動運転、ロボット、ビデオ監視などの分野でSAMURAIが重要な役割を果たし、よりインテリジェントな生活体験をもたらしてくれると信じています。
プロジェクトアドレス: https://yangchris11.github.io/samurai/
論文アドレス: https://arxiv.org/pdf/2411.11922
全体として、SAMURAI モデルはビデオ オブジェクト トラッキングの分野で画期的な進歩を遂げており、その効率的で正確かつ堅牢なパフォーマンスは、将来のインテリジェント アプリケーションに強力な技術サポートを提供します。その革新的な記憶メカニズムと動作モデリング システムは、詳細な研究と参照に値します。