Los investigadores de la ETH Zurich han logrado un gran avance en el campo de la estimación de la profundidad monocular. Aprovecharon inteligentemente el modelo Marigold de código abierto de Stable Diffusion y lograron una estimación de profundidad de alto rendimiento sin la necesidad de datos de entrenamiento de imágenes de profundidad real al ajustar su módulo U-Net de eliminación de ruido. La innovación de esta investigación es que utiliza datos sintéticos para entrenar el modelo y los combina con el método de estimación de profundidad invariante afín para resolver eficazmente el problema de error causado por la incertidumbre de los parámetros internos de la cámara y mejorar el rendimiento general del modelo en escenas desconocidas. capacidad de ización.
Los investigadores de ETH Zurich lograron una innovación en la estimación de la profundidad monocular modificando el modelo Marigold de código abierto de difusión estable. Este modelo logra un rendimiento excelente al ajustar el módulo U-Net de eliminación de ruido sin requerir datos de entrenamiento de imágenes de profundidad reales. Al entrenarse con datos sintéticos, Marigold puede aprender una amplia gama de escenarios y mejorar las capacidades de generalización en conjuntos de datos invisibles. La idea técnica central es utilizar el conocimiento previo de Difusión Estable y adoptar el método de estimación de profundidad invariante afín para eliminar el error de estimación de profundidad causado por la incertidumbre de los parámetros internos de la cámara.
El resultado de esta investigación proporciona una nueva idea para la tecnología de estimación de profundidad monocular. Se espera que su alta eficiencia y capacidad de generalización se utilicen ampliamente en campos como la conducción autónoma y la navegación robótica. Vale la pena esperar su desarrollo futuro. Esta investigación demuestra plenamente el potencial del modelo de Difusión Estable y su valor de aplicación para resolver problemas prácticos.