O editor de Downcodes relatou: A equipe de pesquisa da Universidade de Washington lançou um novo modelo de rastreamento visual chamado SAMURAI, que é baseado no SAM2 e visa superar os desafios do rastreamento visual em cenas complexas, especialmente ao lidar com objetos em movimento rápido e auto-oclusão. O SAMURAI melhora significativamente os recursos de previsão de movimento de objetos e a precisão da seleção de máscaras, introduzindo sinais de movimento temporal e mecanismos de seleção de memória de percepção de movimento, alcançando um rastreamento robusto e preciso sem retreinamento ou ajuste fino. Seu forte desempenho de disparo zero permite que ele tenha um bom desempenho sem ser treinado em um conjunto de dados específico.
O SAM2 tem um bom desempenho em tarefas de segmentação de objetos, mas apresenta algumas limitações no rastreamento visual. Por exemplo, em cenas lotadas, a memorização em janela fixa não leva em consideração a qualidade da memória selecionada, o que pode causar a propagação de erros por toda a sequência de vídeo.
Para resolver este problema, a equipe de pesquisa propôs o SAMURAI, que melhora significativamente a capacidade de previsão do movimento do objeto e a precisão da seleção da máscara, introduzindo sinais de movimento temporal e um mecanismo de seleção de memória de percepção de movimento. Esta inovação permite que a SAMURAI obtenha um rastreamento robusto e preciso sem a necessidade de retreinamento ou ajuste fino.
Em termos de operação em tempo real, o SAMURAI demonstrou um forte desempenho de disparo zero, o que significa que o modelo ainda pode funcionar bem sem ser treinado em um conjunto de dados específico.
Através da avaliação, a equipe de pesquisa descobriu que a taxa de sucesso e a precisão do SAMURAI em vários conjuntos de dados de referência foram significativamente melhoradas. No conjunto de dados LaSOT-ext, o SAMURAI alcançou um aumento de AUC de 7,1%, enquanto no conjunto de dados GOT-10k alcançou um aumento de AO de 3,5%. Além disso, em comparação com métodos totalmente supervisionados, o SAMURAI tem um desempenho igualmente competitivo no conjunto de dados LaSOT, demonstrando a sua robustez e amplo potencial de aplicação em cenários complexos de rastreamento.
A equipe de pesquisa afirmou que o sucesso do SAMURAI estabelece as bases para a futura aplicação da tecnologia de rastreamento visual em ambientes mais complexos e dinâmicos. Eles esperam que esta inovação possa promover o desenvolvimento do campo de rastreamento visual, atender às necessidades de aplicações em tempo real e fornecer capacidades de reconhecimento visual mais fortes para vários dispositivos inteligentes.
Entrada do projeto: https://yangchris11.github.io/samurai/
O surgimento do modelo SAMURAI trouxe novos avanços à tecnologia de rastreamento visual, e sua eficiência e precisão em cenas complexas são impressionantes. No futuro, espera-se que este modelo seja amplamente utilizado em áreas como a condução autónoma e a visão robótica, promovendo o desenvolvimento da tecnologia de inteligência artificial. O editor do Downcodes espera ver o SAMURAI alcançar resultados mais impressionantes no futuro!