チューリッヒ工科大学の研究者らは、単眼による深度推定の分野で画期的な進歩を遂げました。彼らは、Stable Diffusion オープンソースの Marigold モデルを巧みに活用し、ノイズ除去 U-Net モジュールを微調整することで、実際の深度画像トレーニング データを必要とせずに高性能の深度推定を実現しました。この研究の革新的な点は、合成データを使用してモデルをトレーニングし、それをアフィン不変深度推定方法と組み合わせて、カメラの内部パラメータの不確実性によって引き起こされるエラー問題を効果的に解決し、未知のシーンでのモデルの一般的なパフォーマンスを向上させることです。化能力。
チューリッヒ工科大学の研究者は、安定拡散のオープンソース マリーゴールド モデルを変更することで、単眼の深さ推定における革新を達成しました。このモデルは、実際の深度画像トレーニング データを必要とせずに、ノイズ除去 U-Net モジュールを微調整することで優れたパフォーマンスを実現します。合成データでトレーニングすることにより、Marigold は幅広いシナリオを学習し、目に見えないデータセットの一般化機能を向上させることができます。中心的な技術的アイデアは、安定拡散の事前知識を使用し、アフィン不変の深度推定方法を採用して、カメラの内部パラメータの不確実性によって引き起こされる深度推定誤差を排除することです。
この研究成果は、単眼距離推定技術の新たなアイデアを提供するものであり、その高い効率性と汎用性により、自動運転やロボットナビゲーションなどの分野での応用が期待されます。 この研究は、安定拡散モデルの可能性と実際の問題解決におけるその応用価値を十分に実証しています。