Le suivi de mouvement tridimensionnel de vidéos à prise unique a toujours été un problème difficile dans le domaine de la vision par ordinateur, en particulier lorsqu'il s'agit de rechercher une précision au niveau des pixels et de traiter de longues séquences vidéo. Les méthodes traditionnelles sont confrontées à de nombreux défis en termes d’efficacité, de précision et de robustesse, et sont difficiles à répondre aux besoins des applications pratiques. L'éditeur de Downcodes vous présentera un dernier résultat de recherche, DELTA, qui a réalisé une percée significative dans le suivi de mouvement tridimensionnel efficace et précis.
De plus, la technologie existante nécessite des calculs élevés et il est difficile de maintenir son efficacité lors du traitement de longues vidéos. Dans le même temps, le suivi à long terme sera également affecté par des problèmes tels que le mouvement de la caméra et l'occlusion d'objets, entraînant des erreurs ou des erreurs de suivi.
Actuellement, les méthodes d’estimation du mouvement d’une séquence vidéo présentent leurs propres avantages et inconvénients. La technologie de flux optique permet un suivi dense des pixels, mais manque de résilience dans les scènes complexes, notamment lors du traitement de longues séquences.
Le flux de scène est une extension du flux optique, qui estime un mouvement tridimensionnel dense à l'aide de données RVB-D ou de nuages de points, mais il reste difficile à appliquer efficacement sur de longues séquences. Bien que les méthodes de suivi de points puissent capturer des trajectoires de mouvement et combiner l’attention spatiale et temporelle pour obtenir un suivi plus fluide, elles restent difficiles à réaliser une surveillance dense en raison des coûts de calcul élevés. De plus, les méthodes de suivi basées sur la reconstruction utilisent des champs de déformation pour estimer le mouvement, mais ne sont pas pratiques dans les applications en temps réel.
Récemment, une équipe de recherche de l'Université du Massachusetts à Amherst, du laboratoire d'intelligence artificielle MIT-IBM Watson et de Snap Inc. a proposé DELTA (Dense Efficient Long-range3D Tracking for Any video), une méthode conçue pour un suivi efficace. chaque pixel dans un espace tridimensionnel. DELTA commence par un suivi à basse résolution, utilise un mécanisme d'attention spatio-temporelle et applique un suréchantillonneur basé sur l'attention pour obtenir une précision à haute résolution. Ses principales innovations incluent un suréchantillonneur pour des limites de mouvement claires, une architecture d'attention spatiale efficace et une représentation logarithmique de la profondeur pour des performances de suivi améliorées.
DELTA a obtenu des résultats avancés sur les ensembles de données CVO et Kubric3D, améliorant de plus de 10 % des indicateurs tels que la moyenne Jaccard (AJ) et la différence de position moyenne tridimensionnelle (APD3D), et a également réalisé des tests de suivi de points 3D tels que TAP-Vid3D. et LSFodyssée exceptionnel. Contrairement aux méthodes existantes, DELTA permet un suivi 3D dense à grande échelle et fonctionne plus de 8 fois plus rapidement que les méthodes précédentes tout en conservant une précision de pointe.
Les expériences montrent que DELTA fonctionne bien dans les tâches de suivi tridimensionnel, avec une vitesse et une précision dépassant les méthodes précédentes. DELTA est formé sur l'ensemble de données Kubric, qui contient plus de 5 600 vidéos, et sa fonction de perte combine les pertes de coordonnées 2D, de profondeur et de visibilité.
Dans le test de référence, DELTA a obtenu les scores les plus élevés respectivement en CVO et Kubric3D en suivi 2D longue distance et en suivi 3D dense, accomplissant la tâche beaucoup plus rapidement que les autres méthodes. Les choix de conception de DELTA, tels que la représentation logarithmique de la profondeur, l'attention spatiale et les suréchantillonneurs basés sur l'attention, améliorent considérablement sa précision et son efficacité dans divers scénarios de suivi.
DELTA est une méthode efficace capable de suivre chaque pixel d'une image vidéo, obtenant ainsi une précision et des durées d'exécution plus rapides en 3D dense et en suivi 3D. Cette méthode peut rencontrer des difficultés sur les points masqués à long terme, et les meilleures performances sont obtenues dans des vidéos courtes ne dépassant pas quelques centaines d'images. La précision du suivi 3D de DELTA repose sur la précision et la stabilité temporelle de l'estimation de profondeur monoculaire utilisée. On s'attend à ce que les progrès de la recherche sur l'estimation de la profondeur monoculaire améliorent encore les performances de cette méthode.
Entrée du projet : https://snap-research.github.io/DELTA/
Dans l’ensemble, DELTA a réalisé des progrès révolutionnaires en matière de suivi de mouvement tridimensionnel efficace, et sa grande précision, son efficacité et son évolutivité lui confèrent un énorme potentiel d’application dans le domaine du traitement vidéo. À l’avenir, avec le développement continu de la technologie d’estimation de profondeur monoculaire, les performances de DELTA devraient encore être améliorées.