El seguimiento eficiente del movimiento 3D del video de una sola lente siempre ha sido un problema difícil en el campo de la visión por parte Los métodos tradicionales están limitados por la computación de los recursos y la complejidad del algoritmo, lo que dificulta lograr una comprensión detallada de la escena completa y el seguimiento intensivo de movimiento tridimensional. Este artículo introducirá un nuevo enfoque llamado Delta, que tiene como objetivo resolver este rompecabezas de manera eficiente y lograr resultados significativos.
En el campo del procesamiento de video, ha sido un problema difícil rastrear eficientemente el movimiento tridimensional del video de una sola lente, especialmente cuando se requiere un seguimiento preciso a nivel de píxel de secuencias largas. Los métodos tradicionales enfrentan múltiples desafíos, a menudo solo rastrean una pequeña cantidad de puntos clave, y no pueden lograr una comprensión detallada del escenario completo.
Además, las demandas informáticas de la técnica anterior son altas, lo que dificulta mantener la eficiencia al procesar videos largos. Al mismo tiempo, el seguimiento a largo plazo también se verá afectado por problemas como el movimiento de la cámara y la oclusión del objeto, lo que resulta en errores o errores de seguimiento.
Actualmente, los métodos de estimación de movimiento de secuencia de video tienen sus propias ventajas y desventajas. La tecnología de flujo óptico proporciona un seguimiento intensivo de píxeles, pero exhibe una dureza insuficiente en escenarios complejos, especialmente cuando se trata de secuencias largas.
El flujo de escenarios es una extensión del flujo óptico, estimando un movimiento tridimensional denso a través de datos RGB-D o nubes de puntos, pero aún es difícil aplicar eficientemente en secuencias largas. Aunque el método de seguimiento de puntos puede capturar trayectorias de movimiento y combina atención espacial y temporal para lograr un seguimiento más suave, todavía es difícil lograr un monitoreo intensivo debido al alto costo computacional. Además, el método de seguimiento basado en la reconstrucción utiliza campos de deformación para estimar el movimiento, pero no es muy práctico en las aplicaciones en tiempo real.
Recientemente, un equipo de investigación de la Universidad de Massachusetts Amherst, MIT-IBM Watson Artificial Intelligence Laboratory y Snap Inc. propuso el Delta (seguimiento de largo alcance y eficiente para cualquier video), un tipo de seguimiento diseñado para un método de seguimiento eficiente diseñado para cada uno. Píxel en espacio tridimensional. Delta comienza con el seguimiento de baja resolución, adopta un mecanismo de atención espacio-temporal y aplica un muestreo ascendente basado en la atención para la precisión de alta resolución. Sus innovaciones clave incluyen muestreo ascendente para límites de movimiento claros, arquitectura eficiente de atención espacial y representaciones de profundidad logarítmica del rendimiento de seguimiento mejorado.
Delta ha logrado resultados avanzados en conjuntos de datos CVO y Kubric3D, mejorando en más del 10% en indicadores como Jaccard promedio (AJ) y diferencia de posición promedio 3D (APD3D), y también en puntos de referencia de seguimiento de puntos 3D como TAP-VID3D y LSFODYSEY. pendiente. A diferencia de los métodos existentes, Delta implementa un seguimiento tridimensional intensivo en escala, que se ejecuta a más de 8 veces más rápido que los métodos anteriores, al tiempo que mantiene la precisión líder en la industria.
Los experimentos muestran que Delta se desempeña excelentemente en tareas de seguimiento tridimensional, con velocidad y precisión superiores a los métodos anteriores. Delta está entrenado en el conjunto de datos Kubric y contiene más de 5600 videos, con una función de pérdida que combina coordenadas 2D, pérdidas de profundidad y visibilidad.
En el punto de referencia, Delta obtuvo los puntajes más altos en CVO y Kubric3D en el seguimiento 2D de larga distancia y el seguimiento 3D intensivo, respectivamente, y las tareas se completaron mucho más rápido que otros métodos. Las opciones de diseño de Delta, como la representación de profundidad logarítmica, la atención espacial y los muestreadores ascendentes basados en la atención, mejoran significativamente su precisión y eficiencia en una variedad de escenarios de seguimiento.
Delta es un método eficiente que puede rastrear cada píxel en los marcos de video, logrando una precisión y un tiempo de ejecución más rápido en el seguimiento denso D y 3D. Este método puede enfrentar desafíos en los puntos que están bloqueados durante mucho tiempo, con el mejor rendimiento en videos cortos con no más de cientos de cuadros. La precisión de seguimiento 3D de Delta depende de la precisión y la estabilidad del dominio del tiempo de la estimación de profundidad monocular utilizada. Se espera que el progreso de la investigación en la estimación de la profundidad monocular mejore aún más el rendimiento de este método.
Entrada del proyecto: https://snap-research.github.io/delta/
Puntos clave:
Delta es un enfoque completamente nuevo diseñado para rastrear eficientemente cada píxel en un video de una sola lente.
Delta logra los principales resultados en conjuntos de datos CVO y Kubric3D a 8 veces más rápido que los métodos tradicionales.
Este método puede ser un desafío en los puntos de oclusión a largo plazo, pero funciona de manera excelente en videos cortos.
En resumen, el método Delta ha logrado avances en el seguimiento tridimensional de movimiento de videos de lente única, y su eficiencia y alta precisión proporcionan nuevas posibilidades para futuras aplicaciones de procesamiento de videos. Pero este enfoque aún debe refinarse aún más para lidiar con escenarios de video más complejos y más largos.