Downcodes-Redakteur berichtet: Forschungsteams der Technischen Universität Prag in der Tschechischen Republik und der Eidgenössischen Technischen Hochschule in Zürich haben kürzlich einen großen Durchbruch erzielt. Sie haben eine innovative Methode namens WildGaussians entwickelt, die die Leistung des 3D-Gauß-Sputterns erheblich verbessert. 3DGS)-Technologie zur Verarbeitung unstrukturierter Strukturen in Bildsätzen. Dieser technologische Durchbruch ermöglicht die Erstellung hochwertiger 3D-Rekonstruktionen unter Verwendung unstrukturierter Bildsätze wie im Internet gesammelter Wahrzeichenfotos und eröffnet neue Möglichkeiten für Bereiche wie Virtual Reality, Augmented Reality und Computer Vision. WildGaussians löst hauptsächlich Probleme wie Erscheinungs- und Beleuchtungsänderungen sowie die Verdeckung sich bewegender Objekte durch zwei Kernkomponenten: Erscheinungsmodellierung und Unsicherheitsmodellierung, und funktioniert mit anspruchsvollen Datensätzen wie NeRF On-the-go- und Fototourismus-Datensätzen. Die Rendering-Geschwindigkeit hat ebenfalls beeindruckende 117 Bilder pro Sekunde erreicht.
Ein Forschungsteam der Technischen Universität Prag in der Tschechischen Republik und der ETH Zürich in der Schweiz hat kürzlich eine innovative Methode namens WildGaussians vorgestellt, die die Fähigkeiten der 3D-Gauß-Sputtering-Technologie (3DGS) bei der Verarbeitung unstrukturierter Bildsätze erheblich verbessert. Dieser Durchbruch ermöglicht es, eine hochwertige 3D-Rekonstruktion aus unstrukturierten Bildsätzen wie zum Beispiel aus dem Internet gesammelten Fotos von Wahrzeichen zu erreichen.
WildGaussians löst hauptsächlich zwei zentrale Herausforderungen: Änderungen im Erscheinungsbild und in der Beleuchtung sowie Okklusionsprobleme bei sich bewegenden Objekten. Das Forschungsteam ging diese Herausforderungen an, indem es zwei Kernkomponenten entwickelte: Erscheinungsmodellierung und Unsicherheitsmodellierung.
Durch die Darstellungsmodellierung kann das System Bilder verarbeiten, die unter unterschiedlichen Bedingungen aufgenommen wurden, beispielsweise zu unterschiedlichen Zeiten oder unterschiedlichem Wetter. Die Methode verwendet eine trainierbare Einbettung für jedes Trainingsbild und jede Gaußsche Verteilung und passt die Farbe der Gaußschen Verteilung über ein neuronales Netzwerk (MLP) an die entsprechenden Aufnahmebedingungen an.
Die Unsicherheitsmodellierung hilft beim Erkennen und Ignorieren von Verdeckungen wie Fußgängern oder Autos während des Trainings. Die Forscher nutzten vorab trainierte DINOv2-Funktionen, um die Anpassungsfähigkeit des Systems an Landschaftsveränderungen zu verbessern.
In Bezug auf die Leistung übertrifft WildGaussians bestehende hochmoderne Methoden bei anspruchsvollen Datensätzen wie NeRF On-the-go- und Fototourismus-Datensätzen. Gleichzeitig wurde mit dieser Methode eine Echtzeit-Rendering-Geschwindigkeit von 117 Bildern pro Sekunde auf der Nvidia RTX4090 GPU erreicht.
Obwohl WildGaussians im Bereich der 3D-Rekonstruktion erhebliche Fortschritte gemacht hat, geben die Forscher zu, dass die Methode noch einige Einschränkungen aufweist, beispielsweise bei der Darstellung spiegelnder Glanzlichter auf Objekten. Sie planen, diesen Ansatz in Zukunft durch die Einbindung von Techniken wie der Diffusionsmodellierung weiter zu verbessern.
Diese Forschung eröffnet neue Möglichkeiten für eine robuste, vielseitige und fotorealistische 3D-Rekonstruktion aus verrauschten benutzergenerierten Daten, von der erwartet wird, dass sie tiefgreifende Auswirkungen auf mehrere Bereiche wie virtuelle Realität, erweiterte Realität und Computer Vision haben wird.
Das Aufkommen von WildGaussians markiert einen wichtigen Sprung in der 3D-Rekonstruktionstechnologie, und seine Effizienz und hohe Genauigkeit bilden eine solide Grundlage für viele zukünftige Anwendungen. Der Herausgeber von Downcodes hofft, dass diese Technologie in Zukunft weiter verbessert werden kann, um uns ein realistischeres und immersiveres digitales Erlebnis zu bieten.