北京智源人工智慧研究院(BAAI)發布了一款突破性的3D生成模型See3D,該模型利用海量無標註互聯網視頻進行學習,實現了從視頻到3D模型的生成,標誌著“See Video,Get 3D」理念的重大進展。 See3D模型無需依賴傳統的相機參數和3D標註,透過視覺條件技術,僅利用影片中的視覺線索即可產生相機方向可控、幾何一致的多視角影像,大大降低了3D資料擷取的成本和難度,為3D生成技術帶來了新的可能性。
See3D模型支援從文字、單一視圖和稀疏視圖產生3D模型,並具備3D編輯和高斯渲染功能。此模型、程式碼和Demo已開源,方便研究者深入學習和應用。 See3D的應用場景廣泛,包括解鎖3D互動世界、基於稀疏圖片的3D重建、開放世界3D生成以及基於單一視圖的3D生成等。其核心優勢在於資料擴展性、相機可控性和幾何一致性,透過建構包含1,600萬個影片片段、3.2億張影像的WebVi3D資料集,實現了3D生成技術的顯著提升。
研究團隊透過自動篩選視訊數據,建立了大規模WebVi3D資料集,並透過在遮罩視訊資料添加時間依賴噪聲,產生純粹的2D視覺訊號,支援可擴展的多視圖擴散模型訓練,最終實現了無需相機條件的3D生成。 See3D的出現為3D生成領域帶來了新的思路,有望推動大規模無相機標註數據在3D研究中的應用,降低3D數據採集成本,縮小與現有閉源3D解決方案的差距。
See3D的優點在於其資料擴展性、相機可控性和幾何一致性,能夠在任意複雜的相機軌跡下產生場景,並保持前後幀視圖的幾何一致性。這使得See3D在各種3D創作應用上具有廣泛的適用性。
透過擴大資料集規模,See3D為3D生成技術的發展提供了新的思路,希望這項工作能夠促進3D研究社群對大規模無相機標註資料的關注,降低3D資料擷取的成本,並縮小與現有閉源3D解決方案之間的差距。
專案地址:https://vision.baai.ac.cn/see3d
總而言之,See3D模型的開源發布,為3D生成領域帶來了新的技術突破和發展方向,其高效、便捷的特性將為更多應用場景帶來革新,值得期待其在未來能夠取得更大的發展和應用。