Zhiyuan modelo de geração 3D de aprendizagem de vídeo sem rótulo de código aberto See3D

Autor：Eve Cole Data da Última Atualização：2024-12-20 11:16:01

O Instituto de Inteligência Artificial Zhiyuan de Pequim (BAAI) lançou um modelo inovador de geração 3D, See3D, que usa vídeos massivos da Internet não rotulados para aprender e realizar a geração de modelos 3D a partir de vídeos, marcando o "Veja o vídeo, obtenha um grande avanço no conceito de 3D. O modelo See3D não precisa depender de parâmetros de câmera tradicionais e anotações 3D. Por meio da tecnologia de condição visual, ele pode gerar imagens de visualização múltipla com direção de câmera controlável e geometria consistente usando apenas pistas visuais no vídeo, reduzindo bastante o custo e a dificuldade de vídeo. obtenção de dados 3D, trazendo novas possibilidades para a tecnologia de geração 3D.

O modelo See3D suporta a geração de modelos 3D a partir de texto, visualização única e visualização esparsa, e possui funções de edição 3D e renderização gaussiana. O modelo, o código e a demonstração foram de código aberto para facilitar o estudo aprofundado e a aplicação pelos pesquisadores. See3D tem uma ampla gama de cenários de aplicação, incluindo desbloqueio de mundos interativos 3D, reconstrução 3D baseada em imagens esparsas, geração 3D de mundo aberto e geração 3D baseada em visualização única. Suas principais vantagens residem na escalabilidade de dados, controlabilidade da câmera e consistência geométrica. Ao construir um conjunto de dados WebVi3D contendo 16 milhões de videoclipes e 320 milhões de quadros de imagens, alcançou melhorias significativas na tecnologia de geração 3D.

微信截图_20241210151417.png

A equipe de pesquisa construiu um conjunto de dados WebVi3D em grande escala, filtrando automaticamente os dados de vídeo e adicionando ruído dependente do tempo aos dados de vídeo mascarados, gerando sinais visuais 2D puros para suportar o treinamento escalável do modelo de difusão multivisualização, alcançando, em última análise, 3D sem câmera. geração de condições. O surgimento do See3D trouxe novas ideias para o campo da geração 3D e espera-se que promova a aplicação de dados de anotação sem câmera em grande escala na pesquisa 3D, reduza o custo da coleta de dados 3D e diminua a lacuna com os sistemas fechados existentes. -fonte de soluções 3D.

As vantagens do See3D residem na escalabilidade dos dados, na controlabilidade da câmera e na consistência geométrica. Ele pode gerar cenas sob quaisquer trajetórias complexas da câmera e manter a consistência geométrica das visualizações do quadro anterior e seguinte. Isso torna o See3D amplamente aplicável em uma variedade de aplicações de criação 3D.

Ao expandir o tamanho do conjunto de dados, See3D fornece novas ideias para o desenvolvimento de tecnologia de geração 3D. Espera-se que este trabalho possa promover a atenção da comunidade de pesquisa 3D para dados de anotação sem câmera em grande escala e reduzir o custo de aquisição de dados 3D. e diminuir a lacuna existente entre soluções 3D de código fechado.

Endereço do projeto: https://vision.baai.ac.cn/see3d

Em suma, o lançamento de código aberto do modelo See3D trouxe novos avanços tecnológicos e direções de desenvolvimento para o campo da geração 3D. Seus recursos eficientes e convenientes trarão inovação para mais cenários de aplicação. o futuro e aplicações.