ドキュメント: https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio は拡散エンジンです。私たちは、テキスト エンコーダー、UNet、VAE などのアーキテクチャを再構築し、オープンソース コミュニティのモデルとの互換性を維持しながら、計算パフォーマンスを向上させました。多くの興味深い機能を提供します。ディフュージョンモデルの魅力をお楽しみください。
これまで、DiffSynth Studio は次のモデルをサポートしていました。
2024 年 10 月 25 日当社は広範な FLUX ControlNet サポートを提供します。このプロジェクトは、構造が異なっていても自由に組み合わせることができるさまざまな ControlNet モデルをサポートしています。さらに、ControlNet モデルは高解像度リファインメントおよびパーティション制御技術と互換性があり、非常に強力で制御可能な画像生成を可能にします。 ./examples/ControlNet/
を参照してください。
2024 年 10 月 8 日。CogVideoX -5B および ExVideo をベースにした拡張 LoRA をリリースします。このモデルは ModelScope または HuggingFace からダウンロードできます。
2024 年 8 月 22 日。このプロジェクトでは CogVideoX-5B がサポートされています。ここを参照してください。このテキストからビデオへのモデルには、次のようないくつかの興味深い機能が提供されています。
2024 年 8 月 22 日。すべてのテキストから画像へのモデルをサポートする興味深いペインターを実装しました。 AI の支援を受けて、ペインターを使用して素晴らしい画像を作成できるようになりました。
2024 年 8 月 21 日。FLUXが DiffSynth-Studio でサポートされました。
2024年6月21日。我々は、ビデオ生成モデルの機能を強化することを目的としたポストチューニング手法である ExVideo を提案します。 Stable Video Diffusion を拡張し、最大 128 フレームの長いビデオの生成を実現しました。
examples/ExVideo
参照してください。2024 年 6 月 13 日。DiffSynth Studio は ModelScope に移管されました。開発者は「私」から「私たち」に移行しました。もちろん、今後も開発やメンテナンスには参加していきます。
2024 年 1 月 29 日。トゥーン シェーディングの素晴らしいソリューションである Diffutoon を提案します。
2023 年 12 月 8 日。特にビデオ合成における拡散モデルの可能性を解放することを目的として、新しいプロジェクトを開発することを決定しました。このプロジェクトの開発が開始されます。
2023 年 11 月 15 日。私たちは、強力なビデオフリッカー除去アルゴリズムである FastBlend を提案します。
2023 年 10 月 1 日。このプロジェクトの初期バージョン、つまり FastSDXL をリリースします。拡散エンジンの構築に挑戦。
2023年8月29日.ビデオ合成フレームワークである DiffSynth を提案します。
ソース コードからインストールします (推奨):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
または、pypi からインストールします。
pip install diffsynth
Python の例はexamples
にあります。ここでは概要を説明します。
プリセットモデルをダウンロードします。モデル ID は構成ファイルにあります。
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])
独自のモデルをダウンロードします。
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" )
CogVideoX-5B は ZhiPu からリリースされています。改良されたパイプラインを提供し、テキストからビデオへの変換、ビデオ編集、自己アップスケーリング、およびビデオ補間をサポートします。 examples/video_synthesis
左側のビデオは元のテキストからビデオへのパイプラインを使用して生成され、右側のビデオは編集とフレーム補間の後の結果です。
128 フレームを生成できる拡張ビデオ合成モデルをトレーニングしました。 examples/ExVideo
フラット化スタイルでリアルなビデオをレンダリングし、ビデオ編集機能を有効にします。 examples/Diffutoon
ビデオモデルを使用しないビデオのスタイル化。 examples/diffsynth
拡散モデルの限界を打ち破り、高解像度の画像を生成! examples/image_synthesis
。
LoRA の微調整は、 examples/train
でサポートされています。
フラックス | 安定拡散3 |
---|---|
カラーズ | フンユアン-DiT |
---|---|
安定した拡散 | 安定拡散XL |
---|---|
AI の支援を受けながら、ペインターを使用して素晴らしい画像を作成しましょう。
このビデオはリアルタイムではレンダリングされません。
WebUI を起動する前に、モデルを./models
フォルダーにダウンロードしてください。ここを参照してください。
Gradio
バージョン pip install gradio
python apps/gradio/DiffSynth_Studio.py
Streamlit
バージョン pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py