A equipe de pesquisa da Universidade de Washington lançou um novo modelo de rastreamento visual SAMURAI, que é baseado no SAM2 e visa superar os desafios do rastreamento visual em cenas complexas, especialmente o rastreamento de objetos em movimento rápido e auto-oclusivos. O SAMURAI melhora significativamente os recursos de previsão de movimento de objetos e a precisão da seleção de máscaras, introduzindo sinais de movimento temporais e mecanismos de seleção de memória com reconhecimento de movimento, obtendo rastreamento robusto e preciso sem retreinamento e com bom desempenho em vários conjuntos de dados de referência.
Recentemente, uma equipe de pesquisa da Universidade de Washington lançou um novo modelo de rastreamento visual chamado SAMURAI. Este modelo é baseado no Segment Anything Model2 (SAM2) e foi projetado para resolver os desafios encontrados no rastreamento visual de objetos em cenas complexas, especialmente ao lidar com objetos em movimento rápido e auto-oclusivos.
O SAM2 tem um bom desempenho em tarefas de segmentação de objetos, mas apresenta algumas limitações no rastreamento visual. Por exemplo, em cenas lotadas, a memorização em janela fixa não leva em consideração a qualidade da memória selecionada, o que pode causar a propagação de erros por toda a sequência de vídeo.
Para resolver este problema, a equipe de pesquisa propôs o SAMURAI, que melhora significativamente a capacidade de previsão do movimento do objeto e a precisão da seleção da máscara, introduzindo sinais de movimento temporal e um mecanismo de seleção de memória de percepção de movimento. Esta inovação permite que a SAMURAI obtenha um rastreamento robusto e preciso sem a necessidade de retreinamento ou ajuste fino.
Em termos de operação em tempo real, o SAMURAI demonstrou um forte desempenho de disparo zero, o que significa que o modelo ainda pode funcionar bem sem ser treinado em um conjunto de dados específico.
Através da avaliação, a equipe de pesquisa descobriu que a taxa de sucesso e a precisão do SAMURAI em vários conjuntos de dados de referência foram significativamente melhoradas. No conjunto de dados LaSOT-ext, o SAMURAI alcançou um aumento de AUC de 7,1%, enquanto no conjunto de dados GOT-10k alcançou um aumento de AO de 3,5%. Além disso, em comparação com métodos totalmente supervisionados, o SAMURAI tem um desempenho igualmente competitivo no conjunto de dados LaSOT, demonstrando a sua robustez e amplo potencial de aplicação em cenários complexos de rastreamento.
A equipe de pesquisa afirmou que o sucesso do SAMURAI estabelece as bases para a futura aplicação da tecnologia de rastreamento visual em ambientes mais complexos e dinâmicos. Eles esperam que esta inovação possa promover o desenvolvimento do campo de rastreamento visual, atender às necessidades de aplicações em tempo real e fornecer capacidades de reconhecimento visual mais fortes para vários dispositivos inteligentes.
Entrada do projeto: https://yangchris11.github.io/samurai/
Destaque:
SAMURAI é uma melhoria inovadora do modelo SAM2, com o objetivo de melhorar as capacidades de rastreamento visual de objetos em cenas complexas.
Ao introduzir um mecanismo de memória com reconhecimento de movimento, o SAMURAI é capaz de prever com precisão o movimento do objeto e otimizar a seleção da máscara, evitando a propagação de erros.
Em vários conjuntos de dados de benchmark, o SAMURAI mostra um forte desempenho de disparo zero, melhorando significativamente a taxa de sucesso e a precisão do rastreamento.
O surgimento do modelo SAMURAI marca um progresso significativo na tecnologia de rastreamento visual. Sua alta precisão e robustez em cenas complexas fornecem um forte suporte para a melhoria das capacidades de reconhecimento visual de futuros dispositivos inteligentes. .