L'Institut d'intelligence artificielle Zhiyuan de Pékin (BAAI) a publié un modèle de génération 3D révolutionnaire, See3D, qui utilise des vidéos Internet massives et non étiquetées pour apprendre et réaliser la génération de modèles 3D à partir de vidéos, marquant ainsi le « Voir la vidéo, obtenir une avancée majeure dans le concept de 3D. Le modèle See3D n'a pas besoin de s'appuyer sur les paramètres de caméra traditionnels et les annotations 3D, grâce à la technologie de condition visuelle, il peut générer des images multi-vues avec une direction de caméra contrôlable et une géométrie cohérente en utilisant uniquement des indices visuels dans la vidéo, réduisant ainsi considérablement le coût et la difficulté de l'opération. obtenir des données 3D, apportant de nouvelles possibilités à la technologie de génération 3D.
Le modèle See3D prend en charge la génération de modèles 3D à partir de texte, d'une vue unique et d'une vue clairsemée, et dispose de fonctions d'édition 3D et de rendu gaussien. Le modèle, le code et la démo ont été open source pour faciliter une étude approfondie et une application par les chercheurs. See3D propose un large éventail de scénarios d'application, notamment le déverrouillage de mondes interactifs 3D, la reconstruction 3D basée sur des images clairsemées, la génération 3D en monde ouvert et la génération 3D basée sur une vue unique. Ses principaux avantages résident dans l'évolutivité des données, la contrôlabilité de la caméra et la cohérence géométrique. En construisant un ensemble de données WebVi3D contenant 16 millions de clips vidéo et 320 millions d'images, il a permis d'améliorer considérablement la technologie de génération 3D.
L'équipe de recherche a construit un ensemble de données WebVi3D à grande échelle en filtrant automatiquement les données vidéo et en ajoutant du bruit dépendant du temps aux données vidéo masquées, générant des signaux visuels 2D purs pour prendre en charge la formation de modèles de diffusion multi-vues évolutives, obtenant finalement une 3D sans caméra. génération de conditions. L'émergence de See3D a apporté de nouvelles idées dans le domaine de la génération 3D et devrait promouvoir l'application de données d'annotation à grande échelle sans caméra dans la recherche 3D, réduire le coût de la collecte de données 3D et réduire l'écart avec les systèmes fermés existants. -sourcer des solutions 3D.
Les avantages de See3D résident dans l'évolutivité des données, la contrôlabilité de la caméra et la cohérence géométrique. Il peut générer des scènes sous n'importe quelle trajectoire de caméra complexe et maintenir la cohérence géométrique des vues d'images précédentes et suivantes. Cela rend See3D largement applicable dans une variété d'applications de création 3D.
En augmentant la taille de l'ensemble de données, See3D fournit de nouvelles idées pour le développement de la technologie de génération 3D. On espère que ces travaux pourront attirer l'attention de la communauté de recherche 3D sur les données d'annotation à grande échelle sans caméra et réduire le coût de l'acquisition de données 3D. , et réduire l'écart existant entre les solutions 3D fermées.
Adresse du projet : https://vision.baai.ac.cn/see3d
Dans l'ensemble, la version open source du modèle See3D a apporté de nouvelles avancées technologiques et orientations de développement dans le domaine de la génération 3D. Ses fonctionnalités efficaces et pratiques apporteront l'innovation à davantage de scénarios d'application. l'avenir et les applications.