A aprendizagem de amostra zero subverte “dividir tudo”! SAMURAI rompe o gargalo do rastreamento de vídeo e bloqueia alvos em tempo real sem qualquer pressão!

Autor：Eve Cole Data da Última Atualização：2025-01-23 19:12:01

O modelo SAM da Meta tem um bom desempenho na área de segmentação de imagens, mas enfrenta desafios no rastreamento de objetos de vídeo. Especialmente em cenas complexas, seu mecanismo de memória de "janela fixa" leva à propagação de erros e a resultados de rastreamento insatisfatórios. Para tanto, pesquisadores da Universidade de Washington desenvolveram o modelo SAMURAI e aprimoraram o SAM2, melhorando significativamente a precisão e a estabilidade do rastreamento de objetos de vídeo.

O modelo SAM “segmentar tudo” lançado pela Meta é invencível no campo da segmentação de imagens, mas quando se trata de rastreamento de objetos de vídeo, é um pouco incapaz de fazer o que deseja, principalmente em cenas com multidões de pessoas, alvos em movimento rápido , ou brincar de "esconde-esconde" fica confuso. Isso ocorre porque o mecanismo de memória do modelo SAM é como uma “janela fixa”, que grava apenas as imagens mais recentes e ignora a qualidade do conteúdo da memória, resultando na propagação de erros no vídeo e reduzindo bastante o efeito de rastreamento.

Para resolver este problema, pesquisadores da Universidade de Washington "pensaram muito" e finalmente desenvolveram um modelo chamado SAMURAI, que "modificou o diabo" o SAM2, usado especificamente para obter rastreamento de objetos de vídeo. O nome de SAMURAI é muito dominador e tem dois pincéis: combina pistas de movimento de tempo e um mecanismo de seleção de memória de percepção de movimento recentemente proposto. Como um guerreiro altamente qualificado, ele pode prever com precisão a trajetória de movimento dos objetos e melhorar a seleção da máscara, em última análise, permite robustez. , rastreamento preciso sem a necessidade de reciclagem ou ajuste fino.

O segredo do SAMURAI reside em duas grandes inovações:

A primeira dica: sistema de modelagem de movimento. Este sistema é como o “Olho de Águia” de um samurai, capaz de prever com maior precisão a localização de objetos em cenas complexas, otimizando assim a seleção de máscaras para que o SAMURAI não seja confundido por objetos semelhantes.

O segundo movimento: mecanismo de seleção de memória de percepção de movimento. SAMURAI abandona o simples mecanismo de memória de "janela fixa" do SAM2 e, em vez disso, adota um sistema de pontuação híbrido que combina similaridade bruta de máscara, pontuações de objetos e movimentos, assim como um samurai selecionando cuidadosamente as armas, retendo apenas as informações históricas mais relevantes, melhorando assim a confiabilidade geral do rastreamento. do modelo e evitar a propagação de erros.

SAMURAI não é apenas altamente qualificado em artes marciais, mas também ágil e capaz de operar em tempo real. Mais importante ainda, demonstrou um forte desempenho de amostra zero em vários conjuntos de dados de referência, o que significa que pode adaptar-se a vários cenários sem formação especial e demonstra fortes capacidades de generalização.

Em testes de campo, o SAMURAI obteve melhorias significativas em relação aos rastreadores existentes, tanto na taxa de sucesso quanto na precisão. Por exemplo, no conjunto de dados LaSOText, obtém um ganho de AUC de 7,1%; no conjunto de dados GOT-10k, obtém um ganho de AO de 3,5%. O que é ainda mais surpreendente é que ele alcança resultados comparáveis aos métodos totalmente supervisionados no conjunto de dados LaSOT, o que prova plenamente seu poder em cenários de rastreamento complexos e seu grande potencial para aplicação prática em ambientes dinâmicos.

O sucesso do SAMURAI se deve ao uso inteligente de informações de movimento. Os pesquisadores combinaram um filtro Kalman tradicional com o SAM2 para ajudar o modelo a selecionar a máscara mais confiável entre várias máscaras candidatas, prevendo a localização e o tamanho dos objetos. Além disso, eles também projetaram um mecanismo de seleção de memória baseado em três pontuações (pontuação de similaridade de máscara, pontuação de aparência de objeto e pontuação de movimento). Somente quando essas três pontuações atingirem o limite, o banco de memória será selecionado. Este mecanismo de memória seletiva evita efetivamente a interferência de informações irrelevantes e melhora a precisão do rastreamento.

O surgimento do SAMURAI traz uma nova esperança ao campo do rastreamento de objetos de vídeo. Ele não apenas supera os rastreadores existentes em desempenho, mas também não requer retreinamento ou ajuste fino e pode ser facilmente aplicado a vários cenários. Acredito que no futuro, o SAMURAI desempenhará um papel importante em áreas como a condução autónoma, robôs e videovigilância, trazendo-nos uma experiência de vida mais inteligente.

Endereço do projeto: https://yangchris11.github.io/samurai/

Endereço do artigo: https://arxiv.org/pdf/2411.11922

O editor de Downcodes concluiu: O surgimento do modelo SAMURAI trouxe um progresso significativo para a tecnologia de rastreamento de alvos de vídeo. Seu mecanismo de memória inovador e sistema de modelagem de movimento resolvem efetivamente as deficiências dos métodos tradicionais, e suas perspectivas de aplicação futuras são amplas.