Tora에 대한 초기 지원(https://github.com/alibaba/Tora)
변환된 모델(자동 다운로드 노드에 포함됨):
https://huggingface.co/Kijai/CogVideoX-5b-Tora/tree/main
이번 주에는 일부 오래된 워크플로에 영향을 미칠 가능성이 가장 큰 몇 가지 대규모 업데이트가 있었습니다. 특히 샘플러 노드에 오류가 발생하면 새로 고쳐야(다시 생성)해야 할 수도 있습니다!
새로운 기능:
CogVideoX의 공식 I2V 버전에 대한 초기 지원: https://huggingface.co/THUDM/CogVideoX-5b-I2V
디퓨저 0.30.3도 필요합니다.
CogVideoX-Fun에 대한 초기 지원 추가: https://github.com/aigc-apps/CogVideoX-Fun
이것은 image2vid를 수행할 수 있지만 아직 공식 I2V 모델은 아니지만 곧 출시될 예정입니다.
onediff에 대한 실험적 지원이 추가되어 샘플링 시간이 최대 40% 단축되어 49프레임의 4090에서 4.23s/it에 도달했습니다. 이를 위해서는 Linux, torch 2.4.0, onediff 및 nexfort 설치가 필요합니다.
pip install --pre onediff onediffx
pip install nexfort
첫 번째 실행은 컴파일에 약 5분 정도 소요됩니다.
5b 모델은 이제 기본 text2vid에도 지원됩니다: https://huggingface.co/THUDM/CogVideoX-5b
또한 ComfyUI/models/CogVideo/CogVideoX-5b
에 자동 다운로드되며, ComfyUI T5를 사용하므로 텍스트 인코더가 필요하지 않습니다.
디퓨저 0.30.1 필요(requirements.txt에 지정되어 있음)
SD3 및 Flux와 동일한 T5 모델을 사용하며 fp8도 잘 작동합니다. 메모리 요구 사항은 주로 비디오 길이에 따라 달라집니다. VAE 디코딩은 모든 것이 오프로드될 때 많은 VRAM을 차지하는 유일한 큰 것으로 보이며, 해당 단계에서 일시적으로 약 13-14GB에 도달합니다. 샘플링 자체에는 5~6GB 정도만 소요됩니다.
vid2vid 워크플로를 시도하기 위해 img2img에서 해킹되었으며 일부 입력에서 흥미롭게 작동하며 매우 실험적입니다.
또한 끝없는 비디오를 생성하는 수단으로 시간 타일링을 추가했습니다.
https://github.com/kijai/ComfyUI-CogVideoXWrapper
원본 저장소: https://github.com/THUDM/CogVideo
CogVideoX-Fun: https://github.com/aigc-apps/CogVideoX-Fun
컨트롤넷: https://github.com/TheDenk/cogvideox-controlnet