El seguimiento del movimiento tridimensional de vídeos de una sola toma siempre ha sido un problema difícil en el campo de la visión por computadora, especialmente cuando se busca precisión a nivel de píxeles y se procesan secuencias de vídeo largas. Los métodos tradicionales enfrentan muchos desafíos en términos de eficiencia, precisión y solidez, y son difíciles de satisfacer las necesidades de las aplicaciones prácticas. El editor de Downcodes le presentará un resultado de investigación más reciente: DELTA, que ha logrado un avance significativo en el seguimiento de movimiento tridimensional eficiente y preciso.
Además, la tecnología existente tiene altos requisitos computacionales y es difícil mantener la eficiencia al procesar vídeos largos. Al mismo tiempo, el seguimiento a largo plazo también se verá afectado por problemas como el movimiento de la cámara y la oclusión de objetos, lo que provocará errores o errores de seguimiento.
Actualmente, los métodos para la estimación del movimiento de secuencias de vídeo tienen sus propias ventajas y desventajas. La tecnología de flujo óptico proporciona un seguimiento denso de píxeles, pero carece de resistencia en escenas complejas, especialmente cuando se procesan secuencias largas.
El flujo de escena es una extensión del flujo óptico, que estima el movimiento tridimensional denso a través de datos RGB-D o nubes de puntos, pero aún es difícil de aplicar de manera eficiente en secuencias largas. Aunque los métodos de seguimiento de puntos pueden capturar trayectorias de movimiento y combinar la atención espacial y temporal para lograr un seguimiento más fluido, todavía es difícil lograr un seguimiento denso debido a los altos costos computacionales. Además, los métodos de seguimiento basados en reconstrucción utilizan campos de deformación para estimar el movimiento, pero no son prácticos en aplicaciones en tiempo real.
Recientemente, un equipo de investigación de la Universidad de Massachusetts Amherst, el Laboratorio de Inteligencia Artificial Watson del MIT-IBM y Snap Inc. propusieron DELTA (Seguimiento 3D denso y eficiente de largo alcance para cualquier video), que es un método diseñado para un seguimiento eficiente. cada píxel en un espacio tridimensional. DELTA comienza con un seguimiento de baja resolución, emplea un mecanismo de atención espaciotemporal y aplica un muestreador basado en la atención para lograr una precisión de alta resolución. Sus innovaciones clave incluyen un muestreador para límites de movimiento claros, una arquitectura de atención espacial eficiente y una representación de profundidad logarítmica para un mejor rendimiento de seguimiento.
DELTA ha logrado resultados avanzados en conjuntos de datos CVO y Kubric3D, mejorando en más de un 10% en indicadores como el Jaccard promedio (AJ) y la diferencia de posición promedio tridimensional (APD3D), y también se desempeñó en puntos de referencia de seguimiento de puntos 3D como TAP-Vid3D. y LSFOdyssey excepcional. A diferencia de los métodos existentes, DELTA logra un seguimiento 3D denso a escala y se ejecuta más de 8 veces más rápido que los métodos anteriores, manteniendo al mismo tiempo una precisión líder en la industria.
Los experimentos muestran que DELTA funciona bien en tareas de seguimiento tridimensional, con una velocidad y precisión que superan a los métodos anteriores. DELTA está entrenado en el conjunto de datos de Kubric, que contiene más de 5600 videos, y su función de pérdida combina pérdidas de coordenadas 2D, profundidad y visibilidad.
En la prueba comparativa, DELTA logró las puntuaciones más altas en CVO y Kubric3D en seguimiento 2D de larga distancia y seguimiento 3D denso respectivamente, completando la tarea mucho más rápido que otros métodos. Las opciones de diseño de DELTA, como la representación de profundidad logarítmica, la atención espacial y los muestreadores basados en la atención, mejoran significativamente su precisión y eficiencia en diversos escenarios de seguimiento.
DELTA es un método eficiente capaz de rastrear cada píxel en un cuadro de video, logrando precisión y tiempos de ejecución más rápidos en 3D denso y seguimiento 3D. Este método puede enfrentar desafíos en puntos ocluidos a largo plazo, y el mejor rendimiento se produce en videos cortos con no más de unos pocos cientos de fotogramas. La precisión del seguimiento 3D de DELTA depende de la precisión y la estabilidad temporal de la estimación de profundidad monocular utilizada. Se espera que el progreso de la investigación en la estimación de la profundidad monocular mejore aún más el rendimiento de este método.
Entrada del proyecto: https://snap-research.github.io/DELTA/
En definitiva, DELTA ha logrado grandes avances en el seguimiento eficiente del movimiento tridimensional, y su alta precisión, eficiencia y escalabilidad hacen que tenga un enorme potencial de aplicación en el campo del procesamiento de vídeo. En el futuro, con el desarrollo continuo de la tecnología de estimación de profundidad monocular, se espera que el rendimiento de DELTA mejore aún más.