El modelo SAM de Meta funciona bien en el campo de la segmentación de imágenes, pero tiene deficiencias en el seguimiento de objetos de video, especialmente en escenas complejas con malos resultados de seguimiento. Investigadores de la Universidad de Washington desarrollaron el modelo SAMURAI y mejoraron SAM2, mejorando significativamente el rendimiento del seguimiento de objetos por vídeo. SAMURAI combina inteligentemente señales de movimiento en el tiempo y mecanismos de selección de memoria de percepción de movimiento. Como un guerrero altamente calificado, SAMURAI puede predecir con precisión la trayectoria del movimiento de los objetos y seleccionar la máscara más confiable.
El modelo SAM "segmentar todo" lanzado por Meta es invencible en el campo de la segmentación de imágenes, pero cuando se trata de seguimiento de objetos en video, es un poco incapaz de hacer lo que quiere, especialmente en escenas con multitudes de personas y objetivos en rápido movimiento. , o jugando al "escondite". SAM se confunde. Esto se debe a que el mecanismo de memoria del modelo SAM es como una "ventana fija", que solo registra las imágenes más recientes e ignora la calidad del contenido de la memoria, lo que provoca una propagación de errores en el vídeo y reduce en gran medida el efecto de seguimiento.
Para resolver este problema, investigadores de la Universidad de Washington "pensaron mucho" y finalmente desarrollaron un modelo llamado SAMURAI, que "modificó" el SAM2, utilizado específicamente para lograr el seguimiento de objetos en video. El nombre de SAMURAI es muy dominante y tiene dos pinceles: combina pistas de movimiento en el tiempo y un mecanismo de selección de memoria de percepción de movimiento recientemente propuesto. Como un guerrero altamente calificado, puede predecir con precisión la trayectoria del movimiento de los objetos y mejorar la selección de máscara, en última instancia, permite una robustez. Seguimiento preciso y preciso sin necesidad de volver a capacitarse o realizar ajustes.
El secreto de SAMURAI reside en dos grandes innovaciones:
El primer consejo: sistema de modelado de movimiento. Este sistema es como el "Ojo de Águila" de un samurái, capaz de predecir con mayor precisión la ubicación de objetos en escenas complejas, optimizando así la selección de máscaras para que el SAMURAI no se confunda con objetos similares.
El segundo movimiento: mecanismo de selección de memoria de percepción de movimiento. SAMURAI abandona el simple mecanismo de memoria de "ventana fija" de SAM2 y en su lugar adopta un sistema de puntuación híbrido que combina similitudes de máscaras, puntuaciones de objetos y movimientos, al igual que un samurái que selecciona cuidadosamente las armas, conservando sólo la información histórica más relevante, mejorando así la fiabilidad general del seguimiento. del modelo y evitar la propagación de errores.
SAMURAI no sólo es muy hábil en artes marciales, sino también ágil y capaz de operar en tiempo real. Más importante aún, ha demostrado un sólido rendimiento de muestra cero en varios conjuntos de datos de referencia, lo que significa que puede adaptarse a varios escenarios sin capacitación especial y demuestra sólidas capacidades de generalización.
En las pruebas de campo, SAMURAI logró mejoras significativas con respecto a los rastreadores existentes tanto en tasa de éxito como en precisión. Por ejemplo, en el conjunto de datos LaSOText, obtiene una ganancia AUC del 7,1%; en el conjunto de datos GOT-10k, obtiene una ganancia AO del 3,5%. Lo que es aún más sorprendente es que incluso logra resultados comparables a los métodos totalmente supervisados en el conjunto de datos LaSOT, lo que demuestra plenamente su poder en escenarios de seguimiento complejos y su gran potencial para aplicaciones prácticas en entornos dinámicos.
El éxito de SAMURAI se debe a su uso inteligente de la información de movimiento. Los investigadores combinaron un filtro de Kalman tradicional con SAM2 para ayudar al modelo a seleccionar la máscara más confiable entre múltiples máscaras candidatas al predecir la ubicación y el tamaño de los objetos. Además, también diseñaron un mecanismo de selección de memoria basado en tres puntuaciones (puntuación de similitud de máscara, puntuación de apariencia de objeto y puntuación de movimiento). Solo cuando estas tres puntuaciones alcancen el umbral, se seleccionará el banco de memoria. Este mecanismo de memoria selectiva evita eficazmente la interferencia de información irrelevante y mejora la precisión del seguimiento.
La aparición de SAMURAI trae nuevas esperanzas al campo del seguimiento de objetos por vídeo. No solo supera a los rastreadores existentes en rendimiento, sino que tampoco requiere reentrenamiento ni ajustes y se puede aplicar fácilmente a varios escenarios. Creo que en el futuro, SAMURAI desempeñará un papel importante en campos como la conducción autónoma, los robots y la videovigilancia, brindándonos una experiencia de vida más inteligente.
Dirección del proyecto: https://yangchris11.github.io/samurai/
Dirección del artículo: https://arxiv.org/pdf/2411.11922
En definitiva, el modelo SAMURAI ha logrado grandes avances en el campo del seguimiento de objetos por vídeo y su rendimiento eficiente, preciso y robusto proporciona un sólido soporte técnico para futuras aplicaciones inteligentes. Su innovador mecanismo de memoria y su sistema de modelado de movimiento son dignos de estudio y referencia en profundidad.