北京大學與快手AI團隊合作,研發出一款名為VideoTetris的全新視訊生成框架,成功解決了複雜視訊生成的難題,其效能超越了Pika、Gen-2等商用模型。該框架創新地定義了組合視頻生成任務,能夠精準地按照複雜指令生成視頻,並支持長視頻生成及遞進式多物體指令,有效解決了現有模型在處理複雜指令和細節方面存在的不足,例如精準定位多個物件並保持其特徵細節。
站長之家(ChinaZ.com)6月17日消息:北京大學與快手AI團隊合作,成功攻克了複雜視頻生成的難題。他們提出了一個名為VideoTetris的新框架,能夠像拼圖一樣輕鬆組合各種細節,產生高難度、指令複雜的影片。該框架在複雜視訊生成任務中超越了Pika、Gen-2等商用模型。
VideoTetris框架首次定義了組合視訊生成任務,包括兩個子任務:1) 跟隨複雜組合指令的視訊生成;2) 跟隨遞進的組合式多物體指令的長視訊生成。團隊發現,幾乎所有現有的開源模型和商用模型都未能產生正確的影片。例如,輸入"左邊一個可愛的棕色狗狗,右邊一隻打盹的貓在陽光下小憩",結果生成的視頻往往融合了兩個物體信息,顯得怪異。
相較之下,VideoTetris能夠成功保留所有的位置資訊和細節特徵。在長視頻生成中,它支持更複雜的指令,如"從一隻可愛的棕色松鼠在一堆榛子上過渡到一隻可愛的棕色松鼠和一隻可愛的白色松鼠在一堆榛子上"。產生的影片順序與輸入指令一致,兩隻松鼠還能自然交換食物。
VideoTetris框架採用了時空組合擴散方法。它首先將文字提示按時間解構,為不同視訊幀指定不同的提示訊息。然後在每一幀上進行空間維度的解構,將不同物體對應到不同的視訊區域。最後,透過時空交叉注意力進行組合,實現高效率的組合指令生成。
為了產生更高品質的長視頻,團隊還提出了一種增強的訓練資料預處理方法,使長視頻生成更加動態穩定。此外,引入了參考幀注意力機制,使用原生VAE對先前的幀資訊編碼,區別於其他模型使用CLIP編碼的方式,從而獲得更好的內容一致性。
優化後的結果是,長影片不再有大面積偏色現象,能夠更好地適應複雜指令,生成的影片更有動感,更符合自然。團隊也引進了新的評測指標VBLIP-VQA和VUnidet,首次將組合生成評估方法擴展到視訊維度。
實驗測試表明,在組合視訊生成能力上,VideoTetris模型的表現超過了所有開源模型,甚至是商用模型如Gen-2和Pika。據悉,該程式碼將完全開源。
專案網址:https://top.aibase.com/tool/videotetris
總而言之,VideoTetris框架在複雜視訊生成領域取得了顯著突破,其高效的時空組合擴散方法和創新的評價指標為未來視訊生成技術的發展提供了新的方向。該計畫的開源也為更多研究者提供了寶貴的資源,推動該領域進一步發展。期待未來VideoTetris能夠在更多應用場景中發揮作用。