O rastreamento de movimento tridimensional de vídeos de disparo único sempre foi um problema difícil no campo da visão computacional, especialmente quando se busca precisão no nível de pixel e processamento de longas sequências de vídeo. Os métodos tradicionais enfrentam muitos desafios em termos de eficiência, precisão e robustez e são difíceis de atender às necessidades de aplicações práticas. O editor de Downcodes apresentará a você um resultado de pesquisa mais recente - DELTA, que fez um avanço significativo no rastreamento de movimento tridimensional eficiente e preciso.
Além disso, a tecnologia existente possui elevados requisitos computacionais e é difícil manter a eficiência no processamento de vídeos longos. Ao mesmo tempo, o rastreamento de longo prazo também será afetado por problemas como movimento da câmera e oclusão de objetos, levando a erros ou erros de rastreamento.
Atualmente, os métodos para estimativa de movimento de sequência de vídeo têm suas próprias vantagens e desvantagens. A tecnologia de fluxo óptico fornece rastreamento denso de pixels, mas carece de resiliência em cenas complexas, especialmente ao processar sequências longas.
O fluxo de cena é uma extensão do fluxo óptico, que estima movimentos tridimensionais densos por meio de dados RGB-D ou nuvens de pontos, mas ainda é difícil de aplicar com eficiência em sequências longas. Embora os métodos de rastreamento de pontos possam capturar trajetórias de movimento e combinar atenção espacial e temporal para obter um rastreamento mais suave, eles ainda são difíceis de obter um monitoramento denso devido aos altos custos computacionais. Além disso, os métodos de rastreamento baseados em reconstrução utilizam campos de deformação para estimar o movimento, mas não são práticos em aplicações em tempo real.
Recentemente, uma equipe de pesquisa da Universidade de Massachusetts Amherst, MIT-IBM Watson Artificial Intelligence Laboratory e Snap Inc. propuseram DELTA (Dense Efficient Long-range3D Tracking for Any video), que é um método projetado para rastreamento eficiente. cada pixel no espaço tridimensional. DELTA começa com rastreamento de baixa resolução, emprega um mecanismo de atenção espaço-temporal e aplica um upsampler baseado em atenção para obter precisão de alta resolução. Suas principais inovações incluem um upsampler para limites de movimento claros, uma arquitetura eficiente de atenção espacial e uma representação logarítmica de profundidade para melhor desempenho de rastreamento.
DELTA alcançou resultados avançados em conjuntos de dados CVO e Kubric3D, melhorando em mais de 10% em indicadores como Jaccard médio (AJ) e diferença de posição média tridimensional (APD3D), e também teve desempenho em benchmarks de rastreamento de pontos 3D, como TAP-Vid3D e LSFOdyssey excelente. Ao contrário dos métodos existentes, o DELTA alcança rastreamento 3D denso em escala e é executado 8 vezes mais rápido que os métodos anteriores, mantendo a precisão líder do setor.
Experimentos mostram que o DELTA tem um bom desempenho em tarefas de rastreamento tridimensional, com velocidade e precisão superiores aos métodos anteriores. DELTA é treinado no conjunto de dados Kubric, que contém mais de 5.600 vídeos, e sua função de perda combina coordenadas 2D, profundidade e perdas de visibilidade.
No teste de benchmark, o DELTA obteve as pontuações mais altas em CVO e Kubric3D em rastreamento 2D de longa distância e rastreamento 3D denso, respectivamente, completando a tarefa muito mais rápido do que outros métodos. As opções de design do DELTA, como representação logarítmica de profundidade, atenção espacial e upsamplers baseados em atenção, melhoram significativamente sua precisão e eficiência em vários cenários de rastreamento.
DELTA é um método eficiente capaz de rastrear cada pixel em um quadro de vídeo, alcançando precisão e tempos de execução mais rápidos em rastreamento 3D e 3D denso. Este método pode enfrentar desafios em pontos ocluídos a longo prazo, e o melhor desempenho ocorre em vídeos curtos com não mais que algumas centenas de quadros. A precisão do rastreamento 3D do DELTA depende da precisão e estabilidade temporal da estimativa de profundidade monocular usada. Espera-se que o progresso da pesquisa na estimativa de profundidade monocular melhore ainda mais o desempenho deste método.
Entrada do projeto: https://snap-research.github.io/DELTA/
Em suma, a DELTA fez progressos revolucionários no rastreamento de movimento tridimensional eficiente e sua alta precisão, eficiência e escalabilidade fazem com que ela tenha um enorme potencial de aplicação na área de processamento de vídeo. No futuro, com o desenvolvimento contínuo da tecnologia de estimativa de profundidade monocular, espera-se que o desempenho do DELTA seja melhorado ainda mais.