Forschern der ETH Zürich ist ein Durchbruch auf dem Gebiet der monokularen Tiefenschätzung gelungen. Sie nutzten geschickt das Open-Source-Modell Marigold von Stable Diffusion und erreichten durch Feinabstimmung des U-Net-Moduls zur Rauschunterdrückung eine leistungsstarke Tiefenschätzung, ohne dass echte Tiefenbild-Trainingsdaten erforderlich waren. Die Innovation dieser Forschung besteht darin, dass sie synthetische Daten zum Trainieren des Modells verwendet und diese mit der affinen invarianten Tiefenschätzungsmethode kombiniert, um das Fehlerproblem, das durch die Unsicherheit der internen Parameter der Kamera verursacht wird, effektiv zu lösen und die allgemeine Leistung des Modells in unbekannten Szenen zu verbessern. isierungsfähigkeit.
Forscher der ETH Zürich erzielten Innovationen bei der monokularen Tiefenschätzung, indem sie das Open-Source-Merkblattmodell „Stable Diffusion“ modifizierten. Dieses Modell erzielt eine hervorragende Leistung durch Feinabstimmung des U-Net-Moduls zur Rauschunterdrückung, ohne dass tatsächliche Tiefenbild-Trainingsdaten erforderlich sind. Durch das Training mit synthetischen Daten kann Marigold eine Vielzahl von Szenarien erlernen und die Generalisierungsfähigkeiten für unsichtbare Datensätze verbessern. Die technische Kernidee besteht darin, das Vorwissen über stabile Diffusion zu nutzen und die Methode der affinen invarianten Tiefenschätzung zu übernehmen, um den Tiefenschätzungsfehler zu beseitigen, der durch die Unsicherheit der internen Parameter der Kamera verursacht wird.
Dieses Forschungsergebnis liefert eine neue Idee für die monokulare Tiefenschätzungstechnologie. Es wird erwartet, dass ihre hohe Effizienz und Generalisierungsfähigkeit in Bereichen wie autonomem Fahren und Roboternavigation weit verbreitet sein wird. Diese Forschung demonstriert vollständig das Potenzial des Stable Diffusion-Modells und seinen Anwendungswert bei der Lösung praktischer Probleme.