See3D, le dernier modèle de génération 3D publié par l'Institut de recherche sur l'intelligence artificielle Zhiyuan (BAAI) de Pékin, a réalisé une avancée technologique en utilisant des vidéos Internet massives et non étiquetées pour générer des scènes 3D. Ce modèle n'a pas besoin de s'appuyer sur les paramètres de caméra traditionnels et les annotations 3D. Il peut générer des images multi-vues avec des directions de caméra contrôlables et une géométrie cohérente en utilisant uniquement des indices visuels dans la vidéo, réduisant ainsi considérablement le coût et la difficulté de la collecte de données 3D. See3D prend en charge une variété de méthodes de génération 3D, y compris la génération basée sur du texte, à vue unique et à vue clairsemée, et est capable d'édition 3D et de rendu gaussien. Sa gamme d'applications couvre de nombreux domaines tels que le monde interactif 3D, la reconstruction 3D et le monde ouvert. Génération 3D. Démontre un fort potentiel d’application. Le code modèle et la démo ont été open source pour faciliter une exploration et une application plus approfondies par les chercheurs.
La formation du modèle See3D est basée sur un ensemble de données WebVi3D contenant 16 millions de clips vidéo et 320 millions d'images. En ajoutant du bruit dépendant du temps aux données vidéo masquées, une génération 3D sans caméra est obtenue. Ses avantages résident dans l'évolutivité des données, la contrôlabilité de la caméra et la cohérence géométrique. Il peut générer des scènes sous n'importe quelle trajectoire de caméra complexe et maintenir la cohérence géométrique des vues d'images précédentes et suivantes. See3D fournit de nouvelles idées pour le développement de la technologie de génération 3D, qui devrait attirer l'attention de la communauté de recherche 3D sur les données d'annotation à grande échelle sans caméra et réduire l'écart avec les solutions 3D à source fermée existantes. Adresse du projet : https://vision.baai.ac.cn/see3d
Grâce à une conception intelligente, le modèle See3D résout le problème du coût élevé de la collecte de données 3D traditionnelle et offre une solution plus pratique et plus efficace pour la création de contenu 3D. Sa nature open source encourage également davantage de chercheurs à participer et à promouvoir conjointement l’avancement de la technologie de génération 3D. Je crois que l'émergence de See3D aura un impact profond sur le domaine de la vision 3D.