Prise en charge initiale de Tora (https://github.com/alibaba/Tora)
Modèle converti (inclus dans le nœud de téléchargement automatique) :
https://huggingface.co/Kijai/CogVideoX-5b-Tora/tree/main
Cette semaine, il y a eu des mises à jour plus importantes qui affecteront très probablement certains anciens flux de travail, le nœud d'échantillonnage en particulier devra probablement être actualisé (recréé) en cas d'erreur !
Nouvelles fonctionnalités :
Prise en charge initiale de la version officielle I2V de CogVideoX : https://huggingface.co/THUDM/CogVideoX-5b-I2V
Nécessite également des diffuseurs 0.30.3
Ajout du support initial pour CogVideoX-Fun : https://github.com/aigc-apps/CogVideoX-Fun
Notez que même si celui-ci peut faire image2vid, ce n'est PAS encore le modèle officiel I2V, bien qu'il devrait également être publié très prochainement.
Ajout du support expérimental pour onediff, ce qui a réduit le temps d'échantillonnage d'environ 40 % pour moi, atteignant 4,23 s/it sur 4090 avec 49 images. Cela nécessite l'utilisation de Linux, torch 2.4.0, onediff et l'installation de nexfort :
pip install --pre onediff onediffx
pip install nexfort
La première exécution prendra environ 5 minutes pour la compilation.
Le modèle 5b est désormais également pris en charge pour text2vid de base : https://huggingface.co/THUDM/CogVideoX-5b
Il est également téléchargé automatiquement sur ComfyUI/models/CogVideo/CogVideoX-5b
, l'encodeur de texte n'est pas nécessaire car nous utilisons le ComfyUI T5.
Nécessite les diffuseurs 0.30.1 (ceci est spécifié dans exigences.txt)
Utilise le même modèle T5 que SD3 et Flux, fp8 fonctionne également très bien. Les besoins en mémoire dépendent principalement de la durée de la vidéo. Le décodage VAE semble être le seul grand qui consomme beaucoup de VRAM lorsque tout est déchargé, culminant momentanément à environ 13-14 Go à ce stade. L'échantillonnage lui-même ne prend que peut-être 5 à 6 Go.
Piraté dans img2img pour tenter le workflow vid2vid, fonctionne de manière intéressante avec certaines entrées, hautement expérimentales.
Ajout également d'une mosaïque temporelle comme moyen de générer des vidéos sans fin :
https://github.com/kijai/ComfyUI-CogVideoXWrapper
Dépôt original : https://github.com/THUDM/CogVideo
CogVideoX-Fun : https://github.com/aigc-apps/CogVideoX-Fun
Controlnet : https://github.com/TheDenk/cogvideox-controlnet