Pesquisadores da ETH Zurich fizeram um avanço no campo da estimativa de profundidade monocular. Eles habilmente aproveitaram o modelo Marigold de código aberto Stable Diffusion e alcançaram uma estimativa de profundidade de alto desempenho sem a necessidade de dados de treinamento de imagem de profundidade real, ajustando seu módulo U-Net de remoção de ruído. A inovação desta pesquisa é que ela utiliza dados sintéticos para treinar o modelo e os combina com o método de estimativa de profundidade invariante afim para resolver efetivamente o problema de erro causado pela incerteza dos parâmetros internos da câmera e melhorar o desempenho geral do modelo em cenas desconhecidas. capacidade de ização.
Pesquisadores da ETH Zurich alcançaram inovação na estimativa de profundidade monocular ao modificar o modelo Marigold de código aberto de difusão estável. Este modelo atinge excelente desempenho ajustando o módulo U-Net de eliminação de ruído sem a necessidade de dados reais de treinamento de imagem de profundidade. Ao treinar em dados sintéticos, o Marigold pode aprender uma ampla variedade de cenários e melhorar os recursos de generalização em conjuntos de dados invisíveis. A ideia técnica central é usar o conhecimento prévio de Difusão Estável e adotar o método de estimativa de profundidade invariante afim para eliminar o erro de estimativa de profundidade causado pela incerteza dos parâmetros internos da câmera.
O resultado desta pesquisa fornece uma nova ideia para a tecnologia de estimativa de profundidade monocular. Espera-se que sua alta eficiência e capacidade de generalização sejam amplamente utilizadas em campos como direção autônoma e navegação robótica. Esta pesquisa demonstra plenamente o potencial do modelo de Difusão Estável e seu valor de aplicação na resolução de problemas práticos.