See3D, el modelo de última generación 3D lanzado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan (BAAI) de Beijing, ha logrado un avance tecnológico al utilizar videos masivos de Internet sin etiquetar para generar escenas 3D. Este modelo no necesita depender de los parámetros de la cámara tradicional ni de las anotaciones 3D. Puede generar imágenes de múltiples vistas con direcciones de cámara controlables y geometría consistente utilizando solo pistas visuales en el video, lo que reduce en gran medida el costo y la dificultad de la recopilación de datos 3D. See3D admite una variedad de métodos de generación 3D, incluida la generación basada en texto, vista única y vista dispersa, y es capaz de edición 3D y renderizado gaussiano. Su rango de aplicaciones cubre muchos campos, como mundo interactivo 3D, reconstrucción 3D y mundo abierto. Generación 3D Demuestra un fuerte potencial de aplicación. El código del modelo y la demostración son de código abierto para facilitar una mayor exploración y aplicación por parte de los investigadores.
El entrenamiento del modelo See3D se basa en un conjunto de datos WebVi3D que contiene 16 millones de videoclips y 320 millones de cuadros de imágenes. Al agregar ruido dependiente del tiempo a los datos de video enmascarados, se logra la generación 3D sin cámara. Sus ventajas radican en la escalabilidad de los datos, la controlabilidad de la cámara y la coherencia geométrica. Puede generar escenas bajo cualquier trayectoria de cámara compleja y mantener la coherencia geométrica de las vistas del fotograma anterior y siguiente. See3D proporciona nuevas ideas para el desarrollo de la tecnología de generación 3D, que se espera promueva la atención de la comunidad de investigación 3D hacia los datos de anotación sin cámara a gran escala y reduzca la brecha con las soluciones 3D de código cerrado existentes. Dirección del proyecto: https://vision.baai.ac.cn/see3d
Mediante un diseño inteligente, el modelo See3D resuelve el problema del alto costo de la recopilación de datos 3D tradicional y proporciona una solución más conveniente y eficiente para la creación de contenido 3D. Su naturaleza de código abierto también anima a más investigadores a participar y promover conjuntamente el avance de la tecnología de generación 3D. Creo que la aparición de See3D tendrá un profundo impacto en el campo de la visión 3D.