對 Tora 的初步支持 (https://github.com/alibaba/Tora)
轉換後的模型(包含在自動下載節點中):
https://huggingface.co/Kijai/CogVideoX-5b-Tora/tree/main
本週出現了一些較大的更新,很可能會影響一些舊的工作流程,尤其是採樣器節點如果出現錯誤,可能需要刷新(重新建立)!
新功能:
初步支援 CogVideoX 官方 I2V 版本:https://huggingface.co/THUDM/CogVideoX-5b-I2V
還需要擴散器 0.30.3
新增了對 CogVideoX-Fun 的初始支援:https://github.com/aigc-apps/CogVideoX-Fun
請注意,雖然這個模型可以執行 image2vid,但這還不是官方的 I2V 模型,儘管它也應該很快就會發布。
增加了對 onediff 的實驗支持,這對我來說採樣時間減少了約 40%,在 4090 和 49 幀上達到 4.23 s/it。這需要使用Linux、torch 2.4.0、onediff和nexfort安裝:
pip install --pre onediff onediffx
pip install nexfort
第一次執行編譯大約需要 5 分鐘。
5b 型號現在也支援基本 text2vid:https://huggingface.co/THUDM/CogVideoX-5b
它也會自動下載到ComfyUI/models/CogVideo/CogVideoX-5b
,因為我們使用 ComfyUI T5,所以不需要文字編碼器。
需要擴散器 0.30.1(這在requirements.txt中指定)
使用與 SD3 和 Flux 相同的 T5 模型,fp8 也可以正常運作。記憶體需求主要取決於視頻長度。當所有內容都被卸載時,VAE 解碼似乎是唯一需要大量 VRAM 的功能,在該階段峰值約為 13-14GB。採樣本身可能只需要 5-6GB。
在 img2img 中進行黑客攻擊以嘗試 vid2vid 工作流程,與一些輸入一起有趣地工作,高度實驗性。
還添加了時間平舖作為生成無盡視頻的方法:
https://github.com/kijai/ComfyUI-CogVideoXWrapper
原始倉庫:https://github.com/THUDM/CogVideo
CogVideoX-Fun:https://github.com/aigc-apps/CogVideoX-Fun
控制網:https://github.com/TheDenk/cogvideox-controlnet