Трехмерное отслеживание движения одиночных видеороликов всегда было сложной проблемой в области компьютерного зрения, особенно при достижении точности на уровне пикселей и обработке длинных видеопоследовательностей. Традиционные методы сталкиваются со многими проблемами с точки зрения эффективности, точности и надежности, и их трудно удовлетворить потребностям практического применения. Редактор Downcodes познакомит вас с последним результатом исследования - DELTA, который совершил значительный прорыв в эффективном и точном трехмерном отслеживании движения.
Более того, существующая технология имеет высокие вычислительные требования и ее сложно поддерживать эффективность при обработке длинных видео. В то же время на долгосрочное отслеживание также будут влиять такие проблемы, как движение камеры и окклюзия объекта, что приводит к ошибкам или ошибкам отслеживания.
В настоящее время методы оценки движения видеопоследовательности имеют свои преимущества и недостатки. Технология оптического потока обеспечивает плотное отслеживание пикселей, но ей не хватает устойчивости в сложных сценах, особенно при обработке длинных последовательностей.
Поток сцены — это расширение оптического потока, который оценивает плотное трехмерное движение с помощью данных RGB-D или облаков точек, но его по-прежнему сложно эффективно применять в длинных последовательностях. Хотя методы отслеживания точек могут фиксировать траектории движения и сочетать пространственное и временное внимание для достижения более плавного отслеживания, с их помощью по-прежнему трудно обеспечить плотный мониторинг из-за высоких вычислительных затрат. Кроме того, методы отслеживания на основе реконструкции используют поля деформации для оценки движения, но непрактичны в приложениях реального времени.
Недавно исследовательская группа из Массачусетского университета в Амхерсте, Лаборатории искусственного интеллекта MIT-IBM Watson и Snap Inc. предложила DELTA (Dense Efficient Long-range3D Tracking for Any video), метод, предназначенный для эффективного отслеживания. каждый пиксель трехмерного пространства. DELTA начинается с отслеживания с низким разрешением, использует пространственно-временной механизм внимания и применяет повышающую дискретизацию на основе внимания для достижения точности высокого разрешения. Его ключевые инновации включают в себя повышающую дискретизацию для четких границ движения, эффективную архитектуру пространственного внимания и логарифмическое представление глубины для повышения производительности отслеживания.
DELTA добилась превосходных результатов на наборах данных CVO и Kubric3D, улучшив более чем на 10 % такие показатели, как среднее значение Жаккара (AJ) и трехмерная средняя разница позиций (APD3D), а также продемонстрировала результаты в тестах отслеживания 3D-точек, таких как TAP-Vid3D. и LSFOdyssey выдающиеся. В отличие от существующих методов, DELTA обеспечивает плотное 3D-отслеживание в любом масштабе и работает более чем в 8 раз быстрее, чем предыдущие методы, сохраняя при этом лучшую в отрасли точность.
Эксперименты показывают, что DELTA хорошо справляется с задачами трехмерного отслеживания, превосходя по скорости и точности предыдущие методы. DELTA обучена на наборе данных Kubric, который содержит более 5600 видео, а его функция потерь сочетает в себе потери 2D-координат, глубины и видимости.
В эталонном тесте DELTA получила самые высокие оценки в CVO и Kubric3D при 2D-отслеживании на больших расстояниях и плотном 3D-отслеживании соответственно, выполнив задачу намного быстрее, чем другие методы. Выбор конструкции DELTA, такой как логарифмическое представление глубины, пространственное внимание и повышающая дискретизация на основе внимания, значительно повышает ее точность и эффективность в различных сценариях отслеживания.
DELTA — это эффективный метод, позволяющий отслеживать каждый пиксель в видеокадре, обеспечивая точность и более быстрое время выполнения при плотном 3D- и 3D-отслеживании. Этот метод может столкнуться с проблемами в точках длительной окклюзии, и наилучшая производительность достигается в коротких видеороликах длиной не более нескольких сотен кадров. Точность 3D-слежения DELTA зависит от точности и временной стабильности используемой монокулярной оценки глубины. Ожидается, что прогресс исследований в области монокулярной оценки глубины еще больше улучшит эффективность этого метода.
Вход в проект: https://snap-research.github.io/DELTA/
В целом, DELTA добилась прорывного прогресса в эффективном трехмерном отслеживании движения, а ее высокая точность, эффективность и масштабируемость делают ее имеющей огромный потенциал применения в области обработки видео. Ожидается, что в будущем, благодаря постоянному развитию технологии монокулярной оценки глубины, производительность DELTA будет еще больше улучшена.