El editor de Downcodes informó: El equipo de investigación de la Universidad de Washington lanzó un nuevo modelo de seguimiento visual llamado SAMURAI, que se basa en SAM2 y tiene como objetivo superar los desafíos del seguimiento visual en escenas complejas, especialmente cuando se trata de objetos que se mueven rápidamente y se autoocluyen. SAMURAI mejora significativamente las capacidades de predicción del movimiento de objetos y la precisión de la selección de máscaras al introducir señales de movimiento temporales y mecanismos de selección de memoria de percepción de movimiento, logrando un seguimiento robusto y preciso sin reentrenamiento ni ajustes. Su sólido rendimiento de disparo cero le permite funcionar bien sin tener que entrenarse en un conjunto de datos específico.
SAM2 funciona bien en tareas de segmentación de objetos, pero tiene algunas limitaciones en el seguimiento visual. Por ejemplo, en escenas con mucha gente, la memorización de ventana fija no tiene en cuenta la calidad de la memoria seleccionada, lo que puede provocar que los errores se propaguen a lo largo de la secuencia de vídeo.
Para resolver este problema, el equipo de investigación propuso SAMURAI, que mejora significativamente la capacidad de predicción del movimiento de objetos y la precisión de la selección de máscara mediante la introducción de señales de movimiento temporales y un mecanismo de selección de memoria de percepción de movimiento. Esta innovación permite a SAMURAI lograr un seguimiento sólido y preciso sin necesidad de volver a capacitarse o realizar ajustes.
En términos de operación en tiempo real, SAMURAI demostró un sólido rendimiento de disparo cero, lo que significa que el modelo aún puede funcionar bien sin ser entrenado en un conjunto de datos específico.
A través de la evaluación, el equipo de investigación descubrió que la tasa de éxito y la precisión de SAMURAI en múltiples conjuntos de datos de referencia han mejorado significativamente. En el conjunto de datos LaSOT-ext, SAMURAI logró un aumento de AUC del 7,1 %, mientras que en el conjunto de datos GOT-10k logró un aumento de AO del 3,5 %. Además, en comparación con los métodos totalmente supervisados, SAMURAI se desempeña igualmente de manera competitiva en el conjunto de datos LaSOT, lo que demuestra su solidez y su amplio potencial de aplicación en escenarios de seguimiento complejos.
El equipo de investigación afirmó que el éxito de SAMURAI sienta las bases para la futura aplicación de la tecnología de seguimiento visual en entornos más complejos y dinámicos. Esperan que esta innovación pueda promover el desarrollo del campo del seguimiento visual, satisfacer las necesidades de las aplicaciones en tiempo real y proporcionar capacidades de reconocimiento visual más sólidas para varios dispositivos inteligentes.
Entrada del proyecto: https://yangchris11.github.io/samurai/
La aparición del modelo SAMURAI ha supuesto nuevos avances en la tecnología de seguimiento visual, y su eficiencia y precisión en escenas complejas son impresionantes. En el futuro, se espera que este modelo se utilice ampliamente en campos como la conducción autónoma y la visión de robots, promoviendo un mayor desarrollo de la tecnología de inteligencia artificial. ¡El editor de Downcodes espera ver a SAMURAI lograr resultados más impresionantes en el futuro!