对 Tora 的初步支持 (https://github.com/alibaba/Tora)
转换后的模型(包含在自动下载节点中):
https://huggingface.co/Kijai/CogVideoX-5b-Tora/tree/main
本周出现了一些较大的更新,很可能会影响一些旧的工作流程,尤其是采样器节点如果出现错误,可能需要刷新(重新创建)!
新功能:
初步支持 CogVideoX 官方 I2V 版本:https://huggingface.co/THUDM/CogVideoX-5b-I2V
还需要扩散器 0.30.3
添加了对 CogVideoX-Fun 的初始支持:https://github.com/aigc-apps/CogVideoX-Fun
请注意,虽然这个模型可以执行 image2vid,但这还不是官方的 I2V 模型,尽管它也应该很快发布。
添加了对 onediff 的实验支持,这对我来说采样时间减少了约 40%,在 4090 和 49 帧上达到 4.23 s/it。这需要使用Linux、torch 2.4.0、onediff和nexfort安装:
pip install --pre onediff onediffx
pip install nexfort
第一次运行编译大约需要 5 分钟。
5b 模型现在也支持基本 text2vid:https://huggingface.co/THUDM/CogVideoX-5b
它还会自动下载到ComfyUI/models/CogVideo/CogVideoX-5b
,因为我们使用 ComfyUI T5,所以不需要文本编码器。
需要扩散器 0.30.1(这在requirements.txt中指定)
使用与 SD3 和 Flux 相同的 T5 模型,fp8 也可以正常工作。内存要求主要取决于视频长度。当所有内容都被卸载时,VAE 解码似乎是唯一需要大量 VRAM 的功能,在该阶段峰值约为 13-14GB。采样本身可能只需要 5-6GB。
在 img2img 中进行黑客攻击以尝试 vid2vid 工作流程,与一些输入一起有趣地工作,高度实验性。
还添加了时间平铺作为生成无尽视频的方法:
https://github.com/kijai/ComfyUI-CogVideoXWrapper
原始仓库:https://github.com/THUDM/CogVideo
CogVideoX-Fun:https://github.com/aigc-apps/CogVideoX-Fun
控制网:https://github.com/TheDenk/cogvideox-controlnet