Tora の初期サポート (https://github.com/alibaba/Tora)
変換されたモデル (自動ダウンロード ノードに含まれます):
https://huggingface.co/Kijai/CogVideoX-5b-Tora/tree/main
今週は、いくつかの古いワークフローに影響を与える可能性が高い大きなアップデートがいくつかあり、特にサンプラー ノードがエラーになった場合は更新 (再作成) する必要があると思われます。
新機能:
CogVideoX の公式 I2V バージョンの初期サポート: https://huggingface.co/THUDM/CogVideoX-5b-I2V
ディフューザー 0.30.3 も必要です
CogVideoX-Fun の初期サポートを追加しました: https://github.com/aigc-apps/CogVideoX-Fun
これは image2vid を実行できますが、これはまだ正式な I2V モデルではないことに注意してください。ただし、これもすぐにリリースされるはずです。
onediff の実験的サポートが追加されました。これにより、サンプリング時間が最大 40% 短縮され、49 フレームの 4090 で 4.23 秒/it に達しました。これには、Linux、torch 2.4.0、onediff、および nexfort のインストールを使用する必要があります。
pip install --pre onediff onediffx
pip install nexfort
最初の実行ではコンパイルに約 5 分かかります。
5b モデルは基本的な text2vid でもサポートされるようになりました: https://huggingface.co/THUDM/CogVideoX-5b
また、 ComfyUI/models/CogVideo/CogVideoX-5b
にも自動ダウンロードされます。 ComfyUI T5 を使用するため、テキスト エンコーダーは必要ありません。
ディフューザー 0.30.1 が必要です (これは、requirements.txt で指定されています)
SD3 や Flux と同じ T5 モデルを使用しており、fp8 も正常に動作します。メモリ要件は主にビデオの長さに依存します。 VAE デコードは、すべてがオフロードされるときに多くの VRAM を消費する唯一の大きなもののようで、その段階では一時的に約 13 ~ 14GB でピークに達します。サンプリング自体にはおそらく 5 ~ 6 GB しかかかりません。
img2img をハッキングして vid2vid ワークフローを試み、いくつかの入力で興味深い動作をしますが、非常に実験的です。
エンドレスビデオを生成する手段として一時的なタイリングも追加されました。
https://github.com/kijai/ComfyUI-CogVideoXWrapper
元のリポジトリ: https://github.com/THUDM/CogVideo
CogVideoX-Fun: https://github.com/aigc-apps/CogVideoX-Fun
コントロールネット: https://github.com/TheDenk/cogvideox-controlnet