Cet article présente une méthode Diffusion-Vas en deux étapes basée sur la diffusion préalable, qui est utilisée pour résoudre le problème d'occlusion dans la segmentation d'objets vidéo. Cette méthode peut effectuer efficacement une segmentation vidéo modale et la complétion du contenu, et peut suivre avec précision la cible et restaurer sa forme complète même lorsque l'objet est complètement masqué. En combinant la séquence de masque visible et la carte de pseudo-profondeur, Diffusion-Vas peut déduire l'occlusion de la limite de l'objet et utiliser le modèle de génération conditionnelle pour compléter le contenu de la zone d'occlusion, générant finalement un contenu RVB non modal complet de haute fidélité. Les résultats des tests de référence de cette méthode sur plusieurs ensembles de données montrent que ses performances sont meilleures que celles de nombreuses méthodes existantes, en particulier dans des scénarios complexes.
Dans le domaine de l’analyse vidéo, la compréhension de la persistance des objets est cruciale. L'innovation de la méthode Diffusion-Vas réside dans son traitement d'objets modaux, brisant les limites des méthodes traditionnelles qui se concentrent uniquement sur les objets visibles. Sa conception en deux étapes combine intelligemment la génération de masques et la complétion du contenu, améliorant ainsi efficacement la précision et la robustesse de l'analyse vidéo. À l’avenir, cette technologie devrait être largement utilisée dans des domaines tels que la conduite autonome et l’analyse des vidéos de surveillance, offrant ainsi un soutien solide pour une compréhension vidéo plus précise et plus complète. Adresse du projet : https://diffusion-vas.github.io/