이는 VRAM이 감소된 단일 GPU 노드 에서 실행되도록 최적화된 Genmoai의 txt2video 모델 포크 작업이 진행 중입니다 .
48GB로도 충분히 가능하지만 이제 단일 24GB GPU로 실행해야 합니다.
61프레임을 초과하지 말고 640x480을 사용해 보세요. VRAM은 주로 프레임 수와 해상도에 따라 확장됩니다. 추론 단계는 VRAM 사용을 변경해서는 안 되지만, 비디오를 만드는 데 걸리는 시간은 단계에 따라 달라집니다. 100걸음은 괜찮은 것 같고 15~25분 정도 걸릴 것 같습니다. 원본 소스는 200단계를 사용했지만 이 작업은 약 두 배 정도 시간이 걸립니다.
Windows는 아직 테스트되지 않았지만 아마도 작동할 수 있을까요? ̅ (ツ) /̅
시스템이 이미 데스크톱 실행을 위해 VRAM을 사용하고 있는 경우 설정을 더 낮춰야 할 수도 있습니다.
대부분 필요하지 않을 때 vae, te, dit 등을 CPU로 앞뒤로 이동하고 어디에서나 bfloat16을 사용합니다. 여기에는 상당한 시스템 RAM(~64GB)이 필요할 수 있으며, T5와 DIT가 여전히 상당히 크기 때문에 시스템 RAM이 32G 미만인 경우 페이지 파일 사용으로 되돌려야 하는 경우 속도가 더 느려질 수 있습니다. 모델을 앞뒤로 이동하는 시간은 DIT 단계에서 소요되는 추론 시간에 비해 상당히 작습니다.
추가 최적화... 어쩌면 비트앤바이트 NF4일 수도 있습니다. 출력 품질을 저하시키지 않는다는 가정하에 16GB 이하로 줄어들 수 있습니다. img2video를 수행하기 위해 첫 번째 프레임 이미지를 삽입할 수 있는지 확인해 볼 수 있습니다.
블로그 | 포옹하는 얼굴 | 놀이터 | 채용
Genmo의 최첨단 비디오 생성 모델.
Mochi 1 미리보기는 충실도가 높은 모션과 예비 평가의 강력하고 신속한 준수를 갖춘 개방형 최첨단 비디오 생성 모델입니다. 이 모델은 폐쇄형 비디오 생성 시스템과 개방형 비디오 생성 시스템 간의 격차를 극적으로 줄여줍니다. 우리는 허용적인 Apache 2.0 라이센스에 따라 모델을 출시하고 있습니다. 우리 놀이터에서 이 모델을 무료로 사용해 보세요.
uv를 사용하여 설치:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Hugging Face에서 또는 magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
컴퓨터의 폴더에 가중치를 다운로드하세요.
다음으로 그라데이션 UI를 시작하세요.
python3 -m mochi_preview.gradio_ui --model_dir " "
또는 다음을 사용하여 CLI에서 직접 비디오를 생성하세요.
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
모델 디렉터리 경로로 바꿉니다.
Mochi 1은 새로운 AsymmDiT(Asymmetric Diffusion Transformer) 아키텍처를 기반으로 구축된 100억 개의 매개변수 확산 모델을 특징으로 하는 오픈 소스 비디오 생성의 중요한 발전을 나타냅니다. 완전히 처음부터 훈련된 이 모델은 지금까지 공개적으로 출시된 것 중 가장 큰 비디오 생성 모델입니다. 그리고 무엇보다도 간단하고 해킹이 가능한 아키텍처입니다. 또한 효율적인 컨텍스트 병렬 구현을 포함하는 추론 도구를 출시합니다.
Mochi와 함께 우리는 비디오 AsymmVAE를 오픈소스화하고 있습니다. 우리는 효율적인 고품질 압축 모델을 구축하기 위해 비대칭 인코더-디코더 구조를 사용합니다. AsymmVAE는 12채널 잠재 공간에 대한 8x8 공간 및 6x 시간 압축을 사용하여 비디오를 128x 더 작은 크기로 인과적으로 압축합니다.
매개변수 세다 | Enc 베이스 채널 | 12월 베이스 채널 | 숨어 있는 어둑한 | 공간 압축 | 일시적인 압축 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6배 |
AsymmDiT는 텍스트 처리를 간소화하고 신경망 용량을 시각적 추론에 집중함으로써 압축된 비디오 토큰과 함께 사용자 프롬프트를 효율적으로 처리합니다. AsymmDiT는 다중 모달 self-attention을 사용하여 텍스트 및 시각적 토큰에 공동으로 주의를 기울이고 Stable Diffusion 3과 유사하게 각 양식에 대해 별도의 MLP 레이어를 학습합니다. 그러나 우리의 시각적 스트림은 더 큰 숨겨진 토큰을 통해 텍스트 스트림보다 거의 4배 많은 매개 변수를 갖습니다. 차원. self-attention의 양식을 통합하기 위해 우리는 non-square QKV와 출력 프로젝션 레이어를 사용합니다. 이러한 비대칭 설계는 추론 메모리 요구 사항을 줄여줍니다. 많은 최신 확산 모델은 사전 훈련된 여러 언어 모델을 사용하여 사용자 프롬프트를 나타냅니다. 이와 대조적으로 Mochi 1은 단일 T5-XXL 언어 모델로 프롬프트를 인코딩합니다.
매개변수 세다 | 숫자 레이어 | 숫자 머리 | 시각적 어둑한 | 텍스트 어둑한 | 시각적 토큰 | 텍스트 토큰 |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536년 | 44520 | 256 |
이 모델을 실행하려면 최소 4개의 H100 GPU가 필요합니다. 우리는 이 요구 사항을 줄이기 위한 커뮤니티의 기여를 환영합니다.
Genmo 비디오 모델은 훈련 데이터에서 발견된 편견과 선입견을 본질적으로 반영하는 일반적인 텍스트-비디오 확산 모델입니다. NSFW 콘텐츠를 제한하기 위한 조치가 취해졌지만, 조직은 상용 서비스나 제품에 이러한 모델 가중치를 배포하기 전에 추가 안전 프로토콜을 구현하고 신중하게 고려해야 합니다.
연구 미리보기에 따르면 Mochi 1은 살아 있고 진화하는 체크포인트입니다. 몇 가지 알려진 제한사항이 있습니다. 초기 릴리스는 오늘 480p로 비디오를 생성합니다. 극단적인 움직임이 있는 일부 극단적인 경우에는 약간의 뒤틀림과 왜곡이 발생할 수도 있습니다. Mochi 1은 또한 사실적인 스타일에 최적화되어 있으므로 애니메이션 콘텐츠에서는 제대로 작동하지 않습니다. 우리는 또한 커뮤니티가 다양한 미적 선호도에 맞게 모델을 미세 조정할 것으로 기대합니다.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}