Relatórios do editor Downcodes: Equipes de pesquisa da Universidade Técnica de Praga, na República Tcheca, e do Instituto Federal Suíço de Tecnologia em Zurique fizeram recentemente um grande avanço. Eles desenvolveram um método inovador chamado WildGaussians, que melhora significativamente o desempenho da pulverização catódica 3D (). 3DGS) no processamento de estruturas não estruturadas. Capacidades em conjuntos de imagens. Este avanço tecnológico torna possível obter reconstruções 3D de alta qualidade usando conjuntos de imagens não estruturadas, como fotos de pontos de referência coletadas na Internet, trazendo novas possibilidades para campos como realidade virtual, realidade aumentada e visão computacional. WildGaussians resolve principalmente problemas como mudanças de aparência e iluminação e oclusão de objetos em movimento por meio de dois componentes principais: modelagem de aparência e modelagem de incerteza, e atua em conjuntos de dados desafiadores, como NeRF On-the-go e conjuntos de dados de turismo fotográfico Excelente, é real. a velocidade de renderização do tempo também atingiu impressionantes 117 imagens por segundo.
Uma equipe de pesquisa da Universidade Técnica de Praga, na República Tcheca, e da ETH Zurich, na Suíça, introduziu recentemente um método inovador chamado WildGaussians, que melhora significativamente as capacidades da tecnologia de pulverização catódica gaussiana 3D (3DGS) ao processar conjuntos de imagens não estruturadas. Essa inovação possibilita a reconstrução 3D de alta qualidade a partir de conjuntos de imagens não estruturadas, como fotos de pontos de referência coletadas da Internet.
WildGaussians resolve principalmente dois desafios principais: mudanças de aparência e iluminação e problemas de oclusão de objetos em movimento. A equipe de pesquisa enfrentou esses desafios desenvolvendo dois componentes principais: modelagem de aparência e modelagem de incerteza.
A modelagem de aparência permite que o sistema processe imagens tiradas sob diferentes condições, como horários ou climas diferentes. O método usa uma incorporação treinável para cada imagem de treinamento e distribuição gaussiana e ajusta a cor da distribuição gaussiana às condições de disparo correspondentes por meio de uma rede neural (MLP).
A modelagem de incerteza ajuda a identificar e ignorar oclusões como pedestres ou carros durante o treinamento. Os pesquisadores usaram recursos DINOv2 pré-treinados para melhorar a adaptabilidade do sistema às mudanças na paisagem.
Em termos de desempenho, WildGaussians supera os métodos de última geração existentes em conjuntos de dados desafiadores, como conjuntos de dados NeRF On-the-go e Photo Tourism. Ao mesmo tempo, este método alcançou uma velocidade de renderização em tempo real de 117 imagens por segundo na GPU Nvidia RTX4090.
Embora WildGaussians tenha feito progressos significativos no campo da reconstrução 3D, os pesquisadores admitem que o método ainda apresenta algumas limitações, como a representação de realces especulares em objetos. Eles planejam melhorar ainda mais esta abordagem no futuro, incorporando técnicas como modelagem de difusão.
Esta pesquisa abre novas possibilidades para reconstrução 3D robusta, versátil e fotorrealista a partir de dados ruidosos gerados pelo usuário, o que deverá ter um impacto profundo em vários campos, como realidade virtual, realidade aumentada e visão computacional.
O surgimento dos WildGaussianos marca um salto importante na tecnologia de reconstrução 3D, e sua eficiência e alta precisão fornecem uma base sólida para muitas aplicações futuras. O editor do Downcodes espera que esta tecnologia possa ser melhorada ainda mais no futuro para nos trazer uma experiência digital mais realista e envolvente.