Le suivi efficace du mouvement 3D à partir de la vidéo unique a toujours été un problème difficile dans le domaine de la vision par ordinateur, en particulier lorsqu'il s'agit de vidéos à longue séquence et de poursuivre une précision au niveau du pixel. Les méthodes traditionnelles sont limitées par les ressources informatiques et la complexité des algorithmes, ce qui rend difficile la réalisation d'une compréhension détaillée de la scène complète et du suivi intensif de mouvement tridimensionnel. Cet article introduira une nouvelle approche appelée Delta, qui vise à résoudre efficacement ce puzzle et à obtenir des résultats significatifs.
Dans le domaine du traitement vidéo, il a été difficile de suivre efficacement le mouvement tridimensionnel à partir de la vidéo unique, en particulier lorsque le suivi précis au niveau des pixels des séquences longues est nécessaire. Les méthodes traditionnelles sont confrontées à plusieurs défis, ne suivent souvent qu'un petit nombre de points clés et ne peuvent pas atteindre une compréhension détaillée du scénario complet.
De plus, les demandes informatiques de l'art antérieur sont élevées, ce qui rend difficile l'efficacité lors du traitement de longues vidéos. Dans le même temps, le suivi à long terme sera également affecté par des problèmes tels que le mouvement de la caméra et l'occlusion des objets, entraînant des erreurs de suivi ou des erreurs.
Actuellement, les méthodes d'estimation du mouvement de la séquence vidéo présentent leurs propres avantages et inconvénients. La technologie de flux optique fournit un suivi intensif de pixels, mais présente une ténacité insuffisante dans des scénarios complexes, en particulier lorsqu'il s'agit de longues séquences.
Le flux de scénarios est une extension de l'écoulement optique, estimant le mouvement tridimensionnel dense à travers des données RGB-D ou des nuages ponctuels, mais il est toujours difficile de s'appliquer efficacement dans de longues séquences. Bien que la méthode de suivi des points puisse capturer les trajectoires de mouvement et combiner l'attention spatiale et temporelle pour atteindre un suivi plus lisse, il est toujours difficile d'atteindre une surveillance intensive en raison du coût de calcul élevé. De plus, la méthode de suivi basée sur la reconstruction utilise des champs de déformation pour estimer le mouvement, mais n'est pas très pratique dans les applications en temps réel.
Récemment, une équipe de recherche de l'Université du Massachusetts Amherst, du MIT-IBM Watson Artificial Intelligence Laboratory et SNAP Inc. Delta (suivi dense à long terme 3D pour n'importe quelle vidéo), un type de suivi conçu pour un suivi efficace. Pixel dans un espace tridimensionnel. Delta commence par un suivi à basse résolution, adopte un mécanisme d'attention spatio-temporel et applique un échantillonneur basé sur l'attention pour une précision haute résolution. Ses principales innovations incluent UPSamplers pour des limites de mouvement claires, une architecture d'attention spatiale efficace et des représentations de dépassement de log de performances de suivi améliorées.
Delta a obtenu des résultats avancés sur les ensembles de données CVO et Kubric3d, améliorant de plus de 10% sur des indicateurs tels que JACCARD moyen (AJ) et la différence de position moyenne 3D (APD3D), ainsi que dans des références de suivi des points 3D telles que TAP-VID3D et LSFodyssey. remarquable. Contrairement aux méthodes existantes, Delta met en œuvre un suivi tridimensionnel intensif à l'échelle, fonctionnant à plus de 8 fois plus rapidement que les méthodes précédentes, tout en maintenant une précision de pointe.
Les expériences montrent que Delta fonctionne parfaitement dans des tâches de suivi en trois dimensions, la vitesse et la précision dépassant les méthodes précédentes. Delta est formé sur l'ensemble de données kubric et contient plus de 5600 vidéos, avec une fonction de perte combinant les coordonnées 2D, la profondeur et les pertes de visibilité.
Dans la référence, Delta a obtenu les scores les plus élevés en CVO et Kubric3d sur le suivi 2D longue distance et le suivi 3D intensif, respectivement, et les tâches ont terminé beaucoup plus rapidement que les autres méthodes. Les choix de conception de Delta, tels que la représentation de la profondeur logarithmique, l'attention spatiale et les échantillonneurs basés sur l'attention, améliorent considérablement leur précision et leur efficacité dans une variété de scénarios de suivi.
Delta est une méthode efficace qui peut suivre chaque pixel dans les trames vidéo, atteindre une précision et un runtime plus rapide dans le suivi D et 3D dense. Cette méthode peut faire face à des défis à des points bloqués pendant longtemps, avec les meilleures performances dans de courtes vidéos avec pas plus de centaines de cadres. La précision de suivi 3D du Delta dépend de la précision et de la stabilité du domaine temporel de l'estimation de la profondeur monoculaire utilisée. Les progrès de la recherche dans l'estimation de la profondeur monoculaire devraient améliorer encore les performances de cette méthode.
Entrée du projet: https://snap-research.github.io/delta/
Points clés:
Delta est une approche complètement nouvelle conçue pour suivre efficacement chaque pixel dans une vidéo à un objectif.
Delta obtient des résultats principaux sur les ensembles de données CVO et Kubric3d à 8 fois plus rapidement que les méthodes traditionnelles.
Cette méthode peut être difficile à des points d'occlusion à long terme, mais il fonctionne parfaitement sur de courtes vidéos.
En résumé, la méthode Delta a fait des progrès révolutionnaires dans le suivi de mouvement tridimensionnel des vidéos à lentille unique, et son efficacité et sa haute précision offrent de nouvelles possibilités pour les futures applications de traitement vidéo. Mais cette approche doit encore être affinée pour gérer des scénarios vidéo plus complexes et plus longs.