블로그 | 포옹하는 얼굴 | 놀이터 | 채용
Genmo의 최첨단 비디오 생성 모델.
Mochi 1 미리보기는 충실도가 높은 모션과 예비 평가의 강력하고 신속한 준수를 갖춘 개방형 최첨단 비디오 생성 모델입니다. 이 모델은 폐쇄형 비디오 생성 시스템과 개방형 비디오 생성 시스템 간의 격차를 극적으로 줄여줍니다. 우리는 허용적인 Apache 2.0 라이센스에 따라 모델을 출시할 예정입니다. 우리 놀이터에서 이 모델을 무료로 사용해 보세요.
uv를 사용하여 설치:
자식 클론 https://github.com/genmoai/modelscd 모델 핍 설치 UV uv venv .venvsource .venv/bin/활성화 uv pip 설치 설정 도구 uv pip 설치 -e . --빌드 격리 없음
Flash Attention을 설치하려면 다음을 사용할 수 있습니다.
uv pip install -e .[flash] --no-build-isolation
또한 출력을 비디오로 변환하려면 FFMPEG를 설치해야 합니다.
download_weights.py를 사용하여 모델 + 디코더를 로컬 디렉터리에 다운로드하세요. 다음과 같이 사용하세요:
python3 ./scripts/download_weights.py <path_to_downloaded_directory>
또는 Hugging Face 또는 magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
컴퓨터의 폴더에 가중치를 직접 다운로드하세요.
다음으로 그라데이션 UI를 시작하세요.
python3 ./demos/gradio_ui.py --model_dir "<path_to_downloaded_directory>"
또는 다음을 사용하여 CLI에서 직접 비디오를 생성하세요.
python3 ./demos/cli.py --model_dir "<path_to_downloaded_directory>"
<path_to_downloaded_directory>
모델 디렉터리 경로로 바꿉니다.
이 저장소는 간단하고 구성 가능한 API와 함께 제공되므로 프로그래밍 방식으로 모델을 호출할 수 있습니다. 여기에서 전체 예제를 찾을 수 있습니다. 그러나 대략적으로 보면 다음과 같습니다.
genmo.mochi_preview.pipelines 가져오기(DecoderModelFactory, DitModelFactory, MochiSingleGUPPipeline, T5ModelFactory, Linear_quadratic_schedule, )파이프라인 = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), decoder_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ), cpu_offload=True, decode_type="tiled_full", )video = 파이프라인( 높이=480, 너비=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, 배치_cfg=False, 프롬프트="여기에 가장 좋아하는 프롬프트가 있습니다. ..", negative_prompt="", 시드=12345, )
Mochi 1은 새로운 AsymmDiT(Asymmetric Diffusion Transformer) 아키텍처를 기반으로 구축된 100억 개의 매개변수 확산 모델을 특징으로 하는 오픈 소스 비디오 생성의 중요한 발전을 나타냅니다. 완전히 처음부터 훈련된 이 모델은 지금까지 공개적으로 출시된 것 중 가장 큰 비디오 생성 모델입니다. 그리고 무엇보다도 간단하고 해킹이 가능한 아키텍처입니다. 또한 효율적인 컨텍스트 병렬 구현을 포함하는 추론 하네스를 출시합니다.
Mochi와 함께 우리는 비디오 AsymmVAE를 오픈 소스로 제공하고 있습니다. 우리는 효율적인 고품질 압축 모델을 구축하기 위해 비대칭 인코더-디코더 구조를 사용합니다. AsymmVAE는 12채널 잠재 공간에 대한 8x8 공간 및 6x 시간 압축을 사용하여 비디오를 128x 더 작은 크기로 인과적으로 압축합니다.
매개변수 세다 | Enc 베이스 채널 | 12월 베이스 채널 | 숨어 있는 어둑한 | 공간 압축 | 일시적인 압축 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6배 |
AsymmDiT는 텍스트 처리를 간소화하고 신경망 용량을 시각적 추론에 집중함으로써 압축된 비디오 토큰과 함께 사용자 프롬프트를 효율적으로 처리합니다. AsymmDiT는 다중 모달 self-attention을 사용하여 텍스트 및 시각적 토큰에 공동으로 주의를 기울이고 Stable Diffusion 3과 유사하게 각 양식에 대해 별도의 MLP 레이어를 학습합니다. 그러나 우리의 시각적 스트림은 더 큰 숨겨진 토큰을 통해 텍스트 스트림보다 거의 4배 많은 매개 변수를 갖습니다. 차원. self-attention의 양식을 통합하기 위해 우리는 non-square QKV와 출력 프로젝션 레이어를 사용합니다. 이러한 비대칭 설계는 추론 메모리 요구 사항을 줄여줍니다. 많은 최신 확산 모델은 사전 훈련된 여러 언어 모델을 사용하여 사용자 프롬프트를 나타냅니다. 이와 대조적으로 Mochi 1은 단일 T5-XXL 언어 모델로 프롬프트를 인코딩합니다.
매개변수 세다 | 숫자 레이어 | 숫자 머리 | 시각적 어둑한 | 텍스트 어둑한 | 시각적 토큰 | 텍스트 토큰 |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536년 | 44520 | 256 |
이 모델을 실행하려면 최소 4개의 H100 GPU가 필요합니다. 우리는 이 요구 사항을 줄이기 위한 커뮤니티의 기여를 환영합니다.
Genmo 비디오 모델은 훈련 데이터에서 발견된 편견과 선입견을 본질적으로 반영하는 일반적인 텍스트-비디오 확산 모델입니다. NSFW 콘텐츠를 제한하기 위한 조치가 취해졌지만, 조직은 상용 서비스나 제품에 이러한 모델 가중치를 배포하기 전에 추가적인 안전 프로토콜을 구현하고 신중하게 고려해야 합니다.
연구 미리보기에 따르면 Mochi 1은 살아 있고 진화하는 체크포인트입니다. 몇 가지 알려진 제한사항이 있습니다. 초기 릴리스는 오늘 480p로 비디오를 생성합니다. 극단적인 움직임이 있는 일부 극단적인 경우에는 약간의 뒤틀림과 왜곡이 발생할 수도 있습니다. Mochi 1은 또한 사실적인 스타일에 최적화되어 있으므로 애니메이션 콘텐츠에서는 제대로 작동하지 않습니다. 우리는 또한 커뮤니티가 다양한 미적 선호도에 맞게 모델을 미세 조정할 것으로 기대합니다.
ComfyUI-MochiWrapper는 Mochi에 대한 ComfyUI 지원을 추가합니다. Pytorch의 SDPA 관심 통합은 저장소에서 가져왔습니다.
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }