Die dreidimensionale Bewegungsverfolgung von Einzelvideos war schon immer ein schwieriges Problem im Bereich Computer Vision, insbesondere wenn eine Genauigkeit auf Pixelebene angestrebt und lange Videosequenzen verarbeitet werden. Herkömmliche Methoden stehen hinsichtlich Effizienz, Genauigkeit und Robustheit vor vielen Herausforderungen und können den Anforderungen praktischer Anwendungen nur schwer gerecht werden. Der Herausgeber von Downcodes stellt Ihnen ein aktuelles Forschungsergebnis vor – DELTA, das einen bedeutenden Durchbruch bei der effizienten und genauen dreidimensionalen Bewegungsverfolgung erzielt hat.
Darüber hinaus stellt die bestehende Technologie einen hohen Rechenaufwand dar und es ist schwierig, die Effizienz bei der Verarbeitung langer Videos aufrechtzuerhalten. Gleichzeitig wird die Langzeitverfolgung auch durch Probleme wie Kamerabewegungen und Objektverdeckungen beeinträchtigt, was zu Verfolgungsfehlern oder -fehlern führt.
Derzeit haben Methoden zur Bewegungsschätzung von Videosequenzen ihre eigenen Vor- und Nachteile. Die Optical-Flow-Technologie sorgt für eine dichte Pixelverfolgung, mangelt es jedoch an Stabilität in komplexen Szenen, insbesondere bei der Verarbeitung langer Sequenzen.
Der Szenenfluss ist eine Erweiterung des optischen Flusses, der dichte dreidimensionale Bewegungen anhand von RGB-D-Daten oder Punktwolken schätzt. Es ist jedoch immer noch schwierig, ihn in langen Sequenzen effizient anzuwenden. Obwohl Punktverfolgungsmethoden Bewegungstrajektorien erfassen und räumliche und zeitliche Aufmerksamkeit kombinieren können, um eine reibungslosere Verfolgung zu erreichen, ist es aufgrund der hohen Rechenkosten immer noch schwierig, eine dichte Überwachung zu erreichen. Darüber hinaus nutzen rekonstruktionsbasierte Tracking-Methoden Deformationsfelder zur Bewegungsschätzung, sind jedoch in Echtzeitanwendungen nicht praktikabel.
Kürzlich hat ein Forschungsteam der University of Massachusetts Amherst, des MIT-IBM Watson Artificial Intelligence Laboratory und Snap Inc. DELTA (Dense Efficient Long-range3D Tracking for Any Video) vorgeschlagen, eine Methode, die für effizientes Tracking entwickelt wurde jedes Pixel im dreidimensionalen Raum. DELTA beginnt mit der Verfolgung niedriger Auflösung, nutzt einen räumlich-zeitlichen Aufmerksamkeitsmechanismus und wendet einen aufmerksamkeitsbasierten Upsampler an, um eine hohe Auflösungsgenauigkeit zu erreichen. Zu den wichtigsten Innovationen gehören ein Upsampler für klare Bewegungsgrenzen, eine effiziente räumliche Aufmerksamkeitsarchitektur und eine logarithmische Tiefendarstellung für eine verbesserte Tracking-Leistung.
DELTA hat bei CVO- und Kubric3D-Datensätzen fortgeschrittene Ergebnisse erzielt und sich bei Indikatoren wie dem durchschnittlichen Jaccard (AJ) und der dreidimensionalen durchschnittlichen Positionsdifferenz (APD3D) um mehr als 10 % verbessert und auch bei 3D-Punktverfolgungsbenchmarks wie TAP-Vid3D gute Ergebnisse erzielt und LSFOdyssey hervorragend. Im Gegensatz zu bestehenden Methoden erreicht DELTA eine dichte 3D-Verfolgung im großen Maßstab und läuft mehr als achtmal schneller als frühere Methoden, während die branchenführende Genauigkeit erhalten bleibt.
Experimente zeigen, dass DELTA bei dreidimensionalen Tracking-Aufgaben eine gute Leistung erbringt, wobei Geschwindigkeit und Genauigkeit frühere Methoden übertreffen. DELTA basiert auf dem Kubric-Datensatz, der über 5600 Videos enthält, und seine Verlustfunktion kombiniert 2D-Koordinaten-, Tiefen- und Sichtbarkeitsverluste.
Im Benchmark-Test erzielte DELTA die höchsten Werte in CVO und Kubric3D beim 2D-Tracking über große Entfernungen bzw. beim dichten 3D-Tracking und erledigte die Aufgabe deutlich schneller als andere Methoden. Die Designoptionen von DELTA, wie z. B. logarithmische Tiefendarstellung, räumliche Aufmerksamkeit und aufmerksamkeitsbasierte Upsampler, verbessern die Genauigkeit und Effizienz in verschiedenen Tracking-Szenarien erheblich.
DELTA ist eine effiziente Methode, die in der Lage ist, jedes Pixel in einem Videobild zu verfolgen und so Genauigkeit und schnellere Laufzeiten bei dichtem 3D und 3D-Tracking zu erreichen. Bei langfristig verdeckten Punkten kann es bei dieser Methode zu Herausforderungen kommen, und die beste Leistung wird bei kurzen Videos mit nicht mehr als ein paar hundert Bildern erzielt. Die 3D-Tracking-Genauigkeit von DELTA hängt von der Genauigkeit und zeitlichen Stabilität der verwendeten monokularen Tiefenschätzung ab. Es wird erwartet, dass Forschungsfortschritte bei der monokularen Tiefenschätzung die Leistung dieser Methode weiter verbessern werden.
Projekteingang: https://snap-research.github.io/DELTA/
Alles in allem hat DELTA bahnbrechende Fortschritte bei der effizienten dreidimensionalen Bewegungsverfolgung erzielt und verfügt aufgrund seiner hohen Genauigkeit, Effizienz und Skalierbarkeit über ein enormes Anwendungspotenzial im Bereich der Videoverarbeitung. Mit der kontinuierlichen Weiterentwicklung der monokularen Tiefenschätzungstechnologie wird erwartet, dass die Leistung von DELTA in Zukunft weiter verbessert wird.