智譜AI開源其視訊生成模型CogVideoX,此舉旨在加速視訊生成技術的發展和應用普及。 CogVideoX-2B版本憑藉其高效的性能,僅需單張4090顯示卡即可進行推理,單張A6000顯示卡即可完成微調,極大降低了使用門檻,使其能夠被更廣泛地應用於商業領域。該模型基於先進的3D變分自編碼器(3D VAE)技術,並結合專家Transformer技術,能夠產生高品質的視訊內容,有效解決了視訊資料缺乏文字描述的問題,並對視訊資料進行了嚴格篩選,確保了模型訓練的資料品質。
CogVideoX模型採用了3D變分自編碼器(3D VAE)技術,透過三維卷積同時壓縮視訊的空間和時間維度,實現了更高的壓縮率和更好的重建品質。模型結構包括編碼器、解碼器和潛在空間正則化器,透過時間因果卷積確保了訊息的因果性。此外,使用專家Transformer技術處理編碼後的視訊數據,結合文字輸入產生高品質的視訊內容。為了訓練CogVideoX模型,智譜AI開發了一套篩選高品質視訊資料的方法,排除了過度編輯、運動不連貫等問題視頻,確保了模型訓練的資料品質。同時,透過從圖像字幕生成視訊字幕的管道,解決了視訊資料缺乏文字描述的問題。在效能評估方面,CogVideoX在多個指標上表現優異,包括人類動作、場景、動態程度等,以及專注於視訊動態特性的評估工具。智譜AI將繼續探索視訊生成領域的創新,包括新型模型架構、視訊資訊壓縮和文字視訊內容融合等面向。
為了訓練CogVideoX模型,智譜AI開發了一套篩選高品質視訊資料的方法,排除了過度編輯、運動不連貫等問題視頻,確保了模型訓練的資料品質。同時,透過從圖像字幕生成視訊字幕的管道,解決了視訊資料缺乏文字描述的問題。
在效能評估方面,CogVideoX在多個指標上表現優異,包括人類動作、場景、動態程度等,以及專注於視訊動態特性的評估工具。智譜AI將繼續探索視訊生成領域的創新,包括新型模型架構、視訊資訊壓縮和文字視訊內容融合等面向。
代碼倉庫:
https://github.com/THUDM/CogVideo
模型下載:
https://huggingface.co/THUDM/CogVideoX-2b
技術報告:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
CogVideoX的開源,為視訊生成技術研究提供了寶貴的資源,也預示著該領域將迎來新的發展浪潮。其高效的性能和易用性,將推動更多開發者參與到視訊生成技術的創新中來,並促進其在各行各業的廣泛應用。期待未來智譜AI在該領域取得更多突破性進展!