香港科技大學和清華大學的研究團隊聯合推出了令人驚嘆的AI框架DimensionX,它能夠僅憑一張圖片生成細節豐富的3D和4D場景。這項突破性技術利用可控視頻擴散技術,從單張圖片中提取空間和時間信息,並將其轉化為連續的視頻幀,最終組合成完整的3D或4D場景,為遊戲開發、虛擬現實和影視製作等領域帶來革命性的變化。 DimensionX配備了S-Director和T-Director兩個強大的工具,分別控制場景的視角和物體的運動,實現對場景的精準掌控,甚至可以組合使用,生成更複雜逼真的場景。
來自香港科技大學和清華大學的研究團隊推出了一項名為DimensionX 的全新AI 框架,僅憑一張圖片便能生成充滿細節的3D 和4D 場景,為遊戲開發、虛擬現實和影視製作等領域帶來革命性的突破!
DimensionX的核心魔法是可控視頻擴散技術。 它就像一個技藝高超的“空間魔法師”,能夠從單張圖片中提取空間和時間信息,並將其轉化為連續的視頻幀。
這些視頻幀就像電影膠片一樣,記錄了場景的各個角度和動態變化,最終組合成完整的3D或4D場景。
為了精準掌控“空間魔法”,DimensionX還配備了兩個強大的“魔法棒”: S-Director 和T-Director。 S-Director 負責空間維度,可以控制視角的移動,就像你拿著相機在場景中自由穿梭一樣。
而T-Director 則負責時間維度,可以控制物體的運動,讓場景“活”起來。
更厲害的是,DimensionX還可以將這兩個“魔法棒”組合使用,生成更加複雜和逼真的場景!
例如,你可以讓視角繞著物體旋轉,同時物體也在運動,就像你置身於一個真實的4D世界!
當然,DimensionX的“魔法”還不止於此。 它還針對真實場景進行了優化,例如設計了軌跡感知機制,能夠處理各種複雜的相機運動,讓生成的3D場景更加真實可信。
此外,DimensionX還引入了身份保持去噪策略,可以保證4D場景中物體外觀的一致性,避免出現“穿幫”的尷尬情況。
DimensionX的出現,無疑為3D和4D場景生成領域帶來了革命性的突破。 它不僅操作簡單,效果驚艷,而且應用範圍廣泛,可以用於遊戲開發、虛擬現實、影視製作等多個領域。 相信在不久的將來,DimensionX將帶領我們進入一個更加精彩的“空間魔法”世界!
項目地址:https://chenshuo20.github.io/DimensionX/
論文地址:https://arxiv.org/pdf/2411.04928
DimensionX以其簡便的操作、驚豔的效果和廣泛的應用前景,為3D和4D場景生成領域帶來了革命性的突破,未來應用潛力巨大,值得期待。