문서: https://diffsynth-studio.readthedocs.io/zh-cn/latest/index.html
DiffSynth Studio는 확산 엔진입니다. 우리는 Text Encoder, UNet, VAE 등을 포함한 아키텍처를 재구성하여 오픈 소스 커뮤니티의 모델과의 호환성을 유지하는 동시에 계산 성능을 향상시켰습니다. 우리는 많은 흥미로운 기능을 제공합니다. 확산 모델의 마법을 즐겨보세요!
지금까지 DiffSynth Studio는 다음 모델을 지원했습니다:
2024년 10월 25일 광범위한 FLUX ControlNet 지원을 제공합니다. 이 프로젝트는 구조가 다르더라도 자유롭게 결합할 수 있는 다양한 ControlNet 모델을 지원합니다. 또한 ControlNet 모델은 고해상도 개선 및 파티션 제어 기술과 호환되므로 매우 강력하고 제어 가능한 이미지 생성이 가능합니다. ./examples/ControlNet/
참조하세요.
2024년 10월 8일. CogVideoX-5B 및 ExVideo를 기반으로 확장된 LoRA를 출시합니다. ModelScope 또는 HuggingFace에서 이 모델을 다운로드할 수 있습니다.
2024년 8월 22일. 이 프로젝트에서는 CogVideoX-5B가 지원됩니다. 여기를 참조하세요. 우리는 이 텍스트-비디오 모델에 다음과 같은 몇 가지 흥미로운 기능을 제공합니다.
2024년 8월 22일. 모든 텍스트-이미지 모델을 지원하는 흥미로운 페인터를 구현했습니다. 이제 AI의 도움을 받아 페인터를 사용하여 멋진 이미지를 만들 수 있습니다!
2024년 8월 21일. FLUX는 DiffSynth-Studio에서 지원됩니다.
2024년 6월 21일. ??? 영상 생성 모델의 성능 향상을 목표로 하는 사후 튜닝 기법인 ExVideo를 제안한다. 최대 128프레임의 긴 비디오를 생성할 수 있도록 Stable Video Diffusion을 확장했습니다.
examples/ExVideo
참조하세요.2024년 6월 13일. DiffSynth Studio가 ModelScope로 이전되었습니다. 개발자는 "나"에서 "우리"로 전환했습니다. 물론 개발과 유지보수에는 계속 참여할 예정이다.
2024년 1월 29일. 우리는 툰 셰이딩을 위한 환상적인 솔루션인 Diffutoon을 제안합니다.
2023년 12월 8일 . 우리는 특히 비디오 합성에서 확산 모델의 잠재력을 공개하는 것을 목표로 하는 새로운 프로젝트를 개발하기로 결정했습니다. 본 프로젝트의 개발이 시작되었습니다.
2023년 11월 15일. 우리는 강력한 비디오 깜박임 제거 알고리즘인 FastBlend를 제안합니다.
2023년 10월 1일. 우리는 이 프로젝트의 초기 버전인 FastSDXL을 출시합니다. 확산 엔진을 구축하려는 시도입니다.
2023년 8월 29일. 우리는 비디오 합성 프레임워크인 DiffSynth를 제안합니다.
소스 코드에서 설치(권장):
git clone https://github.com/modelscope/DiffSynth-Studio.git
cd DiffSynth-Studio
pip install -e .
또는 pypi에서 설치하십시오:
pip install diffsynth
Python 예제는 examples
에 있습니다. 여기서는 개요를 제공합니다.
사전 설정된 모델을 다운로드하세요. 모델 ID는 구성 파일에서 찾을 수 있습니다.
from diffsynth import download_models
download_models ([ "FLUX.1-dev" , "Kolors" ])
자신만의 모델을 다운로드하세요.
from diffsynth . models . downloader import download_from_huggingface , download_from_modelscope
# From Modelscope (recommended)
download_from_modelscope ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.bin" , "models/kolors/Kolors/vae" )
# From Huggingface
download_from_huggingface ( "Kwai-Kolors/Kolors" , "vae/diffusion_pytorch_model.fp16.safetensors" , "models/kolors/Kolors/vae" )
CogVideoX-5B는 ZhiPu에서 출시되었습니다. 우리는 텍스트-비디오, 비디오 편집, 자체 확대 및 비디오 보간을 지원하는 향상된 파이프라인을 제공합니다. examples/video_synthesis
왼쪽 비디오는 원본 텍스트-비디오 파이프라인을 사용하여 생성된 반면, 오른쪽 비디오는 편집 및 프레임 보간 후의 결과입니다.
우리는 128개의 프레임을 생성할 수 있는 확장된 비디오 합성 모델을 훈련했습니다. examples/ExVideo
사실적인 비디오를 평면 스타일로 렌더링하고 비디오 편집 기능을 활성화합니다. examples/Diffutoon
비디오 모델 없이 비디오 스타일화. examples/diffsynth
확산모델의 한계를 뛰어넘어 고해상도 이미지를 생성해보세요! examples/image_synthesis
.
LoRA 미세 조정은 examples/train
에서 지원됩니다.
유량 | 안정확산 3 |
---|---|
컬러스 | 훈위안-DiT |
---|---|
안정적인 확산 | 안정확산XL |
---|---|
AI의 도움을 받아 페인터를 사용하여 멋진 이미지를 만들어보세요!
이 비디오는 실시간으로 렌더링되지 않습니다.
WebUI를 시작하기 전에 모델을 ./models
폴더에 다운로드하세요. 여기를 참조하세요.
Gradio
버전 pip install gradio
python apps/gradio/DiffSynth_Studio.py
Streamlit
버전 pip install streamlit streamlit-drawable-canvas
python -m streamlit run apps/streamlit/DiffSynth_Studio.py