O modelo SAM da Meta tem um bom desempenho na área de segmentação de imagens, mas apresenta deficiências no rastreamento de objetos de vídeo, especialmente em cenas complexas com resultados de rastreamento ruins. Pesquisadores da Universidade de Washington desenvolveram o modelo SAMURAI e aprimoraram o SAM2, melhorando significativamente o desempenho do rastreamento de objetos de vídeo. SAMURAI combina habilmente sinais de movimento de tempo e mecanismos de seleção de memória de percepção de movimento. Como um guerreiro altamente qualificado, SAMURAI pode prever com precisão a trajetória de movimento dos objetos e selecionar a máscara mais confiável.
O modelo SAM “segmentar tudo” lançado pela Meta é invencível no campo da segmentação de imagens, mas quando se trata de rastreamento de objetos de vídeo, é um pouco incapaz de fazer o que deseja, principalmente em cenas com multidões de pessoas, alvos em movimento rápido , ou brincar de "esconde-esconde" fica confuso. Isso ocorre porque o mecanismo de memória do modelo SAM é como uma “janela fixa”, que grava apenas as imagens mais recentes e ignora a qualidade do conteúdo da memória, resultando na propagação de erros no vídeo e reduzindo bastante o efeito de rastreamento.
Para resolver este problema, pesquisadores da Universidade de Washington "pensaram muito" e finalmente desenvolveram um modelo chamado SAMURAI, que "modificou o diabo" o SAM2, usado especificamente para obter rastreamento de objetos de vídeo. O nome SAMURAI é muito dominador e tem dois pincéis: combina pistas de movimento de tempo e um mecanismo de seleção de memória de percepção de movimento recentemente proposto. Como um guerreiro altamente qualificado, ele pode prever com precisão a trajetória de movimento dos objetos e melhorar a seleção da máscara, em última análise, permite robustez. , rastreamento preciso sem a necessidade de reciclagem ou ajuste fino.
O segredo do SAMURAI reside em duas grandes inovações:
A primeira dica: sistema de modelagem de movimento. Este sistema é como o “Olho de Águia” de um samurai, capaz de prever com maior precisão a localização de objetos em cenas complexas, otimizando assim a seleção de máscaras para que o SAMURAI não seja confundido por objetos semelhantes.
O segundo movimento: mecanismo de seleção de memória de percepção de movimento. SAMURAI abandona o simples mecanismo de memória de "janela fixa" do SAM2 e, em vez disso, adota um sistema de pontuação híbrido que combina similaridade bruta de máscara, pontuações de objetos e movimentos, assim como um samurai selecionando cuidadosamente as armas, retendo apenas as informações históricas mais relevantes, melhorando assim a confiabilidade geral do rastreamento. do modelo e evitar a propagação de erros.
SAMURAI não é apenas altamente qualificado em artes marciais, mas também ágil e capaz de operar em tempo real. Mais importante ainda, demonstrou um forte desempenho de amostra zero em vários conjuntos de dados de referência, o que significa que pode adaptar-se a vários cenários sem formação especial e demonstra fortes capacidades de generalização.
Nos testes de campo, o SAMURAI obteve melhorias significativas em relação aos rastreadores existentes, tanto na taxa de sucesso quanto na precisão. Por exemplo, no conjunto de dados LaSOText, obtém um ganho de AUC de 7,1%; no conjunto de dados GOT-10k, obtém um ganho de AO de 3,5%. O que é ainda mais surpreendente é que ele alcança resultados comparáveis aos métodos totalmente supervisionados no conjunto de dados LaSOT, o que prova plenamente seu poder em cenários de rastreamento complexos e seu grande potencial para aplicação prática em ambientes dinâmicos.
O sucesso do SAMURAI se deve ao uso inteligente de informações de movimento. Os pesquisadores combinaram um filtro Kalman tradicional com o SAM2 para ajudar o modelo a selecionar a máscara mais confiável entre várias máscaras candidatas, prevendo a localização e o tamanho dos objetos. Além disso, eles também projetaram um mecanismo de seleção de memória baseado em três pontuações (pontuação de similaridade de máscara, pontuação de aparência de objeto e pontuação de movimento). Somente quando essas três pontuações atingirem o limite, o banco de memória será selecionado. Este mecanismo de memória seletiva evita efetivamente a interferência de informações irrelevantes e melhora a precisão do rastreamento.
O surgimento do SAMURAI traz uma nova esperança ao campo do rastreamento de objetos de vídeo. Ele não apenas supera os rastreadores existentes em desempenho, mas também não requer retreinamento ou ajuste fino e pode ser facilmente aplicado a vários cenários. Acredito que no futuro, o SAMURAI desempenhará um papel importante em áreas como a condução autónoma, robôs e videovigilância, trazendo-nos uma experiência de vida mais inteligente.
Endereço do projeto: https://yangchris11.github.io/samurai/
Endereço do artigo: https://arxiv.org/pdf/2411.11922
Em suma, o modelo SAMURAI fez progressos revolucionários no campo do rastreamento de objetos de vídeo e seu desempenho eficiente, preciso e robusto fornece forte suporte técnico para futuras aplicações inteligentes. Seu inovador mecanismo de memória e sistema de modelagem de movimento são dignos de estudo e referência aprofundados.