北京智源人工智慧研究院(BAAI)最新發表的3D生成模式See3D,實現了利用大量無標註網路影片進行3D場景產生的技術突破。此模型無需依賴傳統的相機參數和3D標註,僅透過影片中的視覺線索即可產生相機方向可控且幾何一致的多視角影像,大幅降低了3D資料擷取的成本和難度。 See3D支援多種3D生成方式,包括基於文字、單視圖和稀疏視圖的生成,並能夠進行3D編輯和高斯渲染,其應用範圍涵蓋了3D互動世界、3D重建和開放世界3D生成等多個領域,展現出強大的應用潛力。模型程式碼和Demo已開源,方便研究者進一步探索和應用。
See3D模型的訓練是基於一個包含1600萬視頻片段和3.2億幀圖像的WebVi3D數據集,透過向掩碼視頻數據添加時間依賴噪聲,實現了無需相機條件的3D生成。其優勢在於資料擴展性、相機可控性和幾何一致性,能夠在任意複雜的相機軌跡下產生場景,並保持前後幀視圖的幾何一致性。 See3D為3D生成技術的發展提供了新的思路,有望推動3D研究社群對大規模無相機標註資料的關注,並縮小與現有閉源3D解決方案的差距。專案地址:https://vision.baai.ac.cn/see3d
See3D模型透過巧妙的設計,解決了傳統3D資料擷取成本高昂的問題,為3D內容創作提供了更便利、更有效率的解決方案。其開源的特性也鼓勵了更多研究者參與其中,共同推動3D生成技術的進步。 相信See3D的出現將會對3D視覺領域產生深遠的影響。