Eine effiziente Verfolgung der 3D-Bewegung aus einem Lenszen-Video war schon immer ein schwieriges Problem im Bereich Computer Vision, insbesondere wenn es sich um Langzeitvideos und die Verfolgung von Genauigkeit auf Pixelebene handelt. Traditionelle Methoden werden durch Berechnung von Ressourcen und die Komplexität der Algorithmus begrenzt, wodurch es schwierig ist, ein detailliertes Verständnis der vollständigen Szene und intensive dreidimensionale Bewegungsverfolgung zu erreichen. In diesem Artikel wird ein neuer Ansatz namens Delta vorgestellt, der darauf abzielt, dieses Rätsel effizient zu lösen und signifikante Ergebnisse zu erzielen.
Im Bereich der Videoverarbeitung war es ein schwieriges Problem, die dreidimensionale Bewegung aus Single-Lens-Video effizient zu verfolgen, insbesondere wenn eine präzise Verfolgung langer Sequenzen auf Pixelebene erforderlich ist. Traditionelle Methoden stehen vor mehreren Herausforderungen, verfolgen häufig nur eine kleine Anzahl von Schlüsselpunkten und können das vollständige Szenario detailliert nicht detailliert verstehen.
Darüber hinaus sind die Rechenanforderungen der früheren Kunst hoch, was es schwierig macht, die Effizienz bei der Verarbeitung langer Videos aufrechtzuerhalten. Gleichzeitig wird die langfristige Verfolgung auch von Problemen wie Kamerasbewegung und Objektverschluss beeinflusst, was zu Tracking-Fehlern oder -fehlern führt.
Derzeit weisen die Methoden der Videosequenzbewegungsschätzung ihre eigenen Vor- und Nachteile auf. Die optische Flow -Technologie bietet eine intensive Pixelverfolgung, weist jedoch eine unzureichende Zähigkeit in komplexen Szenarien auf, insbesondere im Umgang mit langen Sequenzen.
Der Szenariofluss ist eine Erweiterung des optischen Flusses, der eine dichte dreidimensionale Bewegung durch RGB-D-Daten oder Punktwolken schätzt, aber es ist immer noch schwierig, in langen Sequenzen effizient anzuwenden. Obwohl die Punktverfolgungsmethode Bewegungs -Trajektorien erfassen und räumliche und zeitliche Aufmerksamkeit kombiniert, um eine reibungslosere Verfolgung zu erreichen, ist es aufgrund der hohen Rechenkosten immer noch schwierig, eine intensive Überwachung zu erreichen. Darüber hinaus verwendet die auf Rekonstruktion basierende Tracking-Methode Verformungsfelder, um Bewegung zu schätzen, ist jedoch in Echtzeitanwendungen nicht sehr praktisch.
Kürzlich hat ein Forschungsteam der Universität von Massachusetts Amherst, MIT-IBM Watson Artificial Intelligence Laboratory und Snap Inc. Delta (Dichte effiziente Langstrecken-Tracking für jedes Video) vorgeschlagen, eine Art von Tracking, die für die effiziente Verfolgung entwickelt wurde. Pixel im dreidimensionalen Raum. Delta beginnt mit der Verfolgung mit geringer Auflösung, nimmt einen räumlich-zeitlichen Aufmerksamkeitsmechanismus an und wendet einen aufmerksamkeitsbasierten Upsampler für die Genauigkeit von hoher Auflösung an. Zu den wichtigsten Innovationen gehören UPSampler für klare Bewegungsgrenzen, effiziente räumliche Aufmerksamkeitsarchitektur und logarithmische Darstellungen der verbesserten Tracking-Leistung.
Delta hat fortschrittliche Ergebnisse zu CVO- und Kubric3D-Datensätzen erzielt und sich um mehr als 10% bei Indikatoren wie dem durchschnittlichen Jaccard (AJ) und 3D-Durchschnittspositionsdifferenz (APD3D) sowie in 3D-Punktverfolgungs-Benchmarks wie Tap-VID3D und LSFodyssey verbessert. hervorragend. Im Gegensatz zu vorhandenen Methoden implementiert Delta eine intensive dreidimensionale Verfolgung im Maßstab, die mehr als 8-mal schneller läuft als frühere Methoden und gleichzeitig die Genauigkeit der branchenführenden Genauigkeit.
Experimente zeigen, dass Delta in dreidimensionalen Tracking-Aufgaben hervorragend durchführt, wobei Geschwindigkeit und Genauigkeit frühere Methoden überschreiten. Delta ist auf dem kubrischen Datensatz trainiert und enthält über 5600 Videos, wobei eine Verlustfunktion 2D -Koordinaten, Tiefen- und Sichtbarkeitsverluste kombiniert.
In der Benchmark erzielte Delta die höchsten Punktzahlen in CVO und Kubric3d auf Langstrecken-2D-Tracking bzw. intensive 3D-Tracking, und die Aufgaben erledigten viel schneller als andere Methoden. Die Entwurfsauswahl von Delta, wie z. B. logarithmische Tiefendarstellung, räumliche Aufmerksamkeit und aufmerksamkeitsbasierte Upsampler, verbessern ihre Genauigkeit und Effizienz in einer Vielzahl von Tracking-Szenarien erheblich.
Delta ist eine effiziente Methode, mit der jedes Pixel in Videobildern verfolgt und die Genauigkeit und eine schnellere Laufzeit in dichtem D- und 3D -Tracking eine schnellere Laufzeit erreicht werden kann. Diese Methode kann an Punkten stehen, die für lange Zeit blockiert sind, wobei die beste Leistung in kurzen Videos mit nicht mehr als Hunderten von Frames bestehen. Die 3D -Verfolgungsgenauigkeit des Deltas hängt von der Genauigkeit und Zeitdomänenstabilität der verwendeten monokularen Tiefenschätzung ab. Der Forschungsfortschritt bei der Schätzung der monokularen Tiefe dürfte die Leistung dieser Methode weiter verbessern.
Projekteingang: https://snap-research.github.io/delta/
Schlüsselpunkte:
Delta ist ein völlig neuer Ansatz, der jedes Pixel in einem einzelnen Video effizient verfolgt.
Delta erzielt die führenden Ergebnisse zu CVO- und Kubric3D -Datensätzen 8 -mal schneller als herkömmliche Methoden.
Diese Methode mag bei langfristigen Okklusionspunkten eine Herausforderung sein, aber sie tritt bei kurzen Videos hervorragend aus.
Zusammenfassend hat die Delta-Methode den Durchbruch bei der dreidimensionalen Bewegung von Einzellinsenvideos durcheinander gebracht, und ihre Effizienz und hohe Genauigkeit bieten neue Möglichkeiten für zukünftige Videoverarbeitungsanwendungen. Dieser Ansatz muss jedoch noch weiter verfeinert werden, um mit komplexeren und längeren Videoszenarien umzugehen.