Informes del editor de Downcodes: Equipos de investigación de la Universidad Técnica de Praga en la República Checa y el Instituto Federal Suizo de Tecnología en Zurich han logrado recientemente un gran avance. Desarrollaron un método innovador llamado WildGaussians, que mejora significativamente el rendimiento de la pulverización gaussiana 3D (. Tecnología 3DGS) en el procesamiento de estructuras no estructuradas. Capacidades en conjuntos de imágenes. Este avance tecnológico permite lograr reconstrucciones 3D de alta calidad utilizando conjuntos de imágenes no estructuradas, como fotografías de monumentos recopiladas en Internet, aportando nuevas posibilidades a campos como la realidad virtual, la realidad aumentada y la visión por computadora. WildGaussians resuelve principalmente problemas como los cambios de apariencia e iluminación y la oclusión de objetos en movimiento a través de dos componentes principales: modelado de apariencia y modelado de incertidumbre, y funciona con conjuntos de datos desafiantes como NeRF On-the-go y conjuntos de datos de turismo fotográfico. Excelente, es real. La velocidad de renderizado en tiempo también ha alcanzado la impresionante cifra de 117 imágenes por segundo.
Un equipo de investigación de la Universidad Técnica de Praga en la República Checa y ETH Zurich en Suiza introdujo recientemente un método innovador llamado WildGaussians, que mejora significativamente las capacidades de la tecnología de pulverización gaussiana 3D (3DGS) al procesar conjuntos de imágenes no estructuradas. Este avance hace posible lograr una reconstrucción 3D de alta calidad a partir de conjuntos de imágenes no estructuradas, como fotografías de monumentos recopiladas de Internet.
WildGaussians resuelve principalmente dos desafíos clave: cambios de apariencia e iluminación y problemas de oclusión de objetos en movimiento. El equipo de investigación abordó estos desafíos desarrollando dos componentes centrales: modelado de apariencia y modelado de incertidumbre.
El modelado de apariencia permite que el sistema procese imágenes tomadas en diferentes condiciones, como diferentes horas o clima. El método utiliza una incrustación entrenable para cada imagen de entrenamiento y distribución gaussiana, y ajusta el color de la distribución gaussiana a las condiciones de disparo correspondientes a través de una red neuronal (MLP).
El modelado de incertidumbre ayuda a identificar e ignorar oclusiones como peatones o automóviles durante el entrenamiento. Los investigadores utilizaron funciones DINOv2 previamente entrenadas para mejorar la adaptabilidad del sistema a los cambios del paisaje.
En términos de rendimiento, WildGaussians supera a los métodos de última generación existentes en conjuntos de datos desafiantes, como los conjuntos de datos NeRF On-the-go y Photo Tourism. Al mismo tiempo, este método logró una velocidad de renderizado en tiempo real de 117 imágenes por segundo en la GPU Nvidia RTX4090.
Aunque WildGaussians ha logrado avances significativos en el campo de la reconstrucción 3D, los investigadores admiten que el método todavía tiene algunas limitaciones, como la representación de reflejos especulares en los objetos. Planean mejorar aún más este enfoque en el futuro incorporando técnicas como el modelado de difusión.
Esta investigación abre nuevas posibilidades para una reconstrucción 3D robusta, versátil y fotorrealista a partir de datos ruidosos generados por el usuario, que se espera que tenga un profundo impacto en múltiples campos como la realidad virtual, la realidad aumentada y la visión por computadora.
La aparición de WildGaussians marca un salto importante en la tecnología de reconstrucción 3D, y su eficiencia y alta precisión proporcionan una base sólida para muchas aplicaciones futuras. El editor de Downcodes espera que esta tecnología pueda mejorarse aún más en el futuro para brindarnos una experiencia digital más realista e inmersiva.