Este artigo apresenta um método Diffusion-Vas de dois estágios baseado na difusão anterior, que é usado para resolver o problema de oclusão na segmentação de objetos de vídeo. Este método pode realizar com eficácia a segmentação modal de vídeo e a conclusão do conteúdo, e pode rastrear com precisão o alvo e restaurar sua forma completa, mesmo quando o objeto está completamente obstruído. Ao combinar a sequência de máscara visível e o mapa de pseudoprofundidade, o Diffusion-Vas pode inferir a oclusão do limite do objeto e usar o modelo de geração condicional para completar o conteúdo da área de oclusão, gerando, em última análise, conteúdo RGB sem modelo completo de alta fidelidade. Os resultados dos testes de benchmark deste método em vários conjuntos de dados mostram que seu desempenho é melhor do que muitos métodos existentes, especialmente em cenários complexos.
No campo da análise de vídeo, a compreensão da persistência de objetos é crucial. A inovação do método Diffusion-Vas reside no processamento de objetos modais, rompendo as limitações dos métodos tradicionais que focam apenas em objetos visíveis. Seu design de dois estágios combina de forma inteligente a geração de máscaras e a conclusão de conteúdo, melhorando efetivamente a precisão e a robustez da análise de vídeo. No futuro, espera-se que esta tecnologia seja amplamente utilizada em áreas como a condução autónoma e a análise de vídeo de vigilância, proporcionando um forte apoio para uma compreensão de vídeo mais precisa e abrangente. Endereço do projeto: https://diffusion-vas.github.io/