Модель SAM компании Meta хорошо работает в области сегментации изображений, но имеет недостатки в отслеживании видеообъектов, особенно в сложных сценах с плохими результатами отслеживания. Исследователи Вашингтонского университета разработали модель SAMURAI и усовершенствовали SAM2, значительно улучшив производительность видеослежения за объектами. САМУРАЙ умело сочетает сигналы движения во времени и механизмы выбора памяти восприятия движения. Как высококвалифицированный воин, САМУРАЙ может точно предсказывать траекторию движения объектов и выбирать наиболее надежную маску.
Модель SAM «сегментировать все», запущенная Meta, непобедима в области сегментации изображений, но когда дело доходит до отслеживания видеообъектов, она немного неспособна делать то, что хочет, особенно в сценах с толпами людей, быстро движущимися целями. , или играя в "прятки" СЭМ запутывается. Это связано с тем, что механизм памяти модели SAM подобен «фиксированному окну», которое записывает только самые последние изображения и игнорирует качество содержимого памяти, что приводит к распространению ошибок в видео и значительно снижает эффект отслеживания.
Чтобы решить эту проблему, исследователи из Вашингтонского университета «хорошо подумали» и, наконец, разработали модель под названием SAMURAI, которая «дьявольски модифицирована» SAM2, специально используемая для видеослежения за объектами. Имя SAMURAI очень властное, и у него есть две кисти: оно сочетает в себе подсказки движения во времени и недавно предложенный механизм выбора памяти восприятия движения. Как высококвалифицированный воин, он может точно предсказать траекторию движения объектов и улучшить выбор маски, что в конечном итоге обеспечивает надежность. , точное отслеживание без необходимости переобучения или тонкой настройки.
Секрет SAMURAI заключается в двух главных инновациях:
Первый совет: система моделирования движения. Эта система подобна «Орлиному глазу» самурая, способному более точно предсказать расположение объектов в сложных сценах, тем самым оптимизируя подбор масок, чтобы САМУРАЙ не запутался в похожих объектах.
Второй ход: механизм выбора памяти восприятия движения. SAMURAI отказывается от простого механизма памяти с «фиксированным окном» SAM2 и вместо этого принимает гибридную систему оценки, которая сочетает в себе необработанные оценки сходства маски, оценки объектов и движения, точно так же, как самурай тщательно выбирает оружие, сохраняя только наиболее важную историческую информацию, тем самым повышая общую надежность отслеживания. модели и избежать распространения ошибок.
САМУРАЙ не только хорошо владеет боевыми искусствами, но также ловок и способен действовать в реальном времени. Что еще более важно, он продемонстрировал высокую производительность при нулевой выборке на различных наборах эталонных данных, что означает, что он может адаптироваться к различным сценариям без специальной подготовки и демонстрирует сильные возможности обобщения.
В полевых испытаниях SAMURAI добился значительных улучшений по сравнению с существующими трекерами как по показателю успешности, так и по точности. Например, в наборе данных LaSOText прирост AUC составляет 7,1%, в наборе данных GOT-10k прирост АО составляет 3,5%. Что еще более удивительно, так это то, что он даже достигает результатов, сравнимых с полностью контролируемыми методами в наборе данных LaSOT, что полностью доказывает его эффективность в сложных сценариях отслеживания и его большой потенциал для практического применения в динамических средах.
Успех SAMURAI обусловлен умелым использованием информации о движении. Исследователи объединили традиционный фильтр Калмана с SAM2, чтобы помочь модели выбрать наиболее надежную маску из нескольких масок-кандидатов, предсказывая расположение и размер объектов. Кроме того, они также разработали механизм выбора памяти на основе трех оценок (оценка сходства маски, оценка внешнего вида объекта и оценка движения). Только когда эти три оценки достигают порогового значения, банк памяти будет выбран. Этот механизм выборочной памяти эффективно предотвращает помехи от ненужной информации и повышает точность отслеживания.
Появление SAMURAI дает новую надежду в области видеослежения за объектами. Он не только превосходит существующие трекеры по производительности, но также не требует переобучения или тонкой настройки и может легко применяться в различных сценариях. Я верю, что в будущем SAMURAI сыграет важную роль в таких областях, как автономное вождение, роботы и видеонаблюдение, принеся нам более интеллектуальный жизненный опыт.
Адрес проекта: https://yangchris11.github.io/samurai/
Адрес статьи: https://arxiv.org/pdf/2411.11922.
В целом, модель SAMURAI добилась прорывного прогресса в области отслеживания видеообъектов, а ее эффективная, точная и надежная работа обеспечивает надежную техническую поддержку для будущих интеллектуальных приложений. Его инновационный механизм памяти и система моделирования движений достойны углубленного изучения и изучения.