Fuente de sabiduría, código abierto, video sin etiqueta, aprendizaje, modelo de generación 3D See3D

Autor：Eve Cole Fecha de actualización：2024-12-20 11:16:01

El Instituto de Inteligencia Artificial Zhiyuan de Beijing (BAAI) ha lanzado un innovador modelo de generación 3D, See3D, que utiliza videos masivos de Internet sin etiquetar para aprender y realizar la generación de modelos 3D a partir de videos, lo que marca el "Ver video, obtener". 3D". El modelo See3D no necesita depender de los parámetros de la cámara tradicional ni de las anotaciones 3D. A través de la tecnología de condición visual, puede generar imágenes de múltiples vistas con direcciones de cámara controlables y una geometría consistente utilizando solo pistas visuales en el video, lo que reduce en gran medida el costo y la dificultad. obtención de datos 3D, aportando nuevas posibilidades a la tecnología de generación 3D.

El modelo See3D admite la generación de modelos 3D a partir de texto, vista única y vista dispersa, y tiene funciones de edición 3D y renderizado gaussiano. El modelo, el código y la demostración han sido de código abierto para facilitar el estudio y la aplicación en profundidad por parte de los investigadores. See3D tiene una amplia gama de escenarios de aplicación, incluido el desbloqueo de mundos interactivos en 3D, la reconstrucción 3D basada en imágenes dispersas, la generación 3D de mundo abierto y la generación 3D basada en una sola vista. Sus principales ventajas residen en la escalabilidad de los datos, la capacidad de control de la cámara y la coherencia geométrica. Al construir un conjunto de datos WebVi3D que contiene 16 millones de videoclips y 320 millones de cuadros de imágenes, ha logrado mejoras significativas en la tecnología de generación 3D.

微信截图_20241210151417.png

El equipo de investigación construyó un conjunto de datos WebVi3D a gran escala filtrando automáticamente datos de video y agregando ruido dependiente del tiempo a los datos de video enmascarados, generó señales visuales 2D puras para respaldar el entrenamiento escalable de modelos de difusión de múltiples vistas, logrando finalmente lograr 3D sin cámara. generación de condiciones. La aparición de See3D ha aportado nuevas ideas al campo de la generación 3D, que se espera promueva la aplicación de datos de anotación sin cámara a gran escala en la investigación 3D, reduzca el costo de la recopilación de datos 3D y reduzca la brecha con los sistemas cerrados existentes. -fuente de soluciones 3D.

Las ventajas de See3D radican en su escalabilidad de datos, control de la cámara y consistencia geométrica. Puede generar escenas bajo cualquier trayectoria de cámara compleja y mantener la consistencia geométrica de las vistas del marco frontal y posterior. Esto hace que See3D sea ampliamente aplicable en una variedad de aplicaciones de creación 3D.

Al ampliar la escala del conjunto de datos, See3D proporciona nuevas ideas para el desarrollo de tecnología de generación 3D. Se espera que este trabajo pueda promover la atención de la comunidad de investigación 3D hacia los datos de anotación sin cámara a gran escala y reducir el costo de la recopilación de datos 3D. y reducir la brecha existente entre las soluciones 3D de código cerrado.

Dirección del proyecto: https://vision.baai.ac.cn/see3d

Con todo, el lanzamiento de código abierto del modelo See3D ha traído nuevos avances tecnológicos y direcciones de desarrollo al campo de la generación 3D. Sus características eficientes y convenientes traerán innovación a más escenarios de aplicaciones. Vale la pena esperar su mayor desarrollo. el futuro y aplicaciones.