Blog | Memeluk Wajah | Taman bermain | Karier
Model pembuatan video canggih dari Genmo.
Pratinjau Mochi 1 adalah model pembuatan video canggih dan terbuka dengan gerakan fidelitas tinggi dan kepatuhan cepat yang kuat dalam evaluasi awal. Model ini secara dramatis menutup kesenjangan antara sistem pembuatan video tertutup dan terbuka. Kami merilis model ini di bawah lisensi Apache 2.0 yang permisif. Coba model ini secara gratis di taman bermain kami.
Instal menggunakan uv:
git clone https://github.com/genmoai/modelscd models instal pip uv uv venv .venvsource .venv/bin/aktifkan alat pengaturan instalasi uv pip uv pip instal -e . --tidak ada-bangun-isolasi
Jika Anda ingin memasang flash perhatian, Anda dapat menggunakan:
uv pip install -e .[flash] --no-build-isolation
Anda juga perlu menginstal FFMPEG untuk mengubah keluaran Anda menjadi video.
Gunakan download_weights.py untuk mengunduh model + decoder ke direktori lokal. Gunakan seperti ini:
python3 ./scripts/download_weights.py <path_to_downloaded_directory>
Atau, unduh langsung beban dari Hugging Face atau melalui magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
ke folder di komputer Anda.
Mulai gradio UI dengan
python3 ./demos/gradio_ui.py --model_dir "<path_to_downloaded_directory>"
Atau buat video langsung dari CLI dengan
python3 ./demos/cli.py --model_dir "<path_to_downloaded_directory>"
Ganti <path_to_downloaded_directory>
dengan jalur ke direktori model Anda.
Repositori ini dilengkapi dengan API sederhana yang dapat disusun, sehingga Anda dapat memanggil model secara terprogram. Anda dapat menemukan contoh lengkapnya di sini. Namun secara kasar tampilannya seperti ini:
dari impor genmo.mochi_preview.pipelines ( DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory, linear_quadratic_schedule, )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), decoder_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ), cpu_offload=Benar, decode_type="tiled_full", )video = pipa( tinggi=480, lebar=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, batch_cfg=False, prompt=perintah favorit Anda di sini. ..",negatif_prompt="", benih=12345, )
Mochi 1 mewakili kemajuan signifikan dalam pembuatan video sumber terbuka, menampilkan model difusi 10 miliar parameter yang dibangun berdasarkan arsitektur Asymmetric Diffusion Transformer (AsymmDiT) baru kami. Dilatih sepenuhnya dari awal, ini adalah model generatif video terbesar yang pernah dirilis secara terbuka. Dan yang terbaik dari semuanya, arsitekturnya sederhana dan dapat diretas. Selain itu, kami merilis memanfaatkan inferensi yang mencakup implementasi paralel konteks yang efisien.
Selain Mochi, kami juga membuka sumber video AsymmVAE kami. Kami menggunakan struktur encoder-decoder asimetris untuk membangun model kompresi berkualitas tinggi yang efisien. AsymmVAE kami secara kausal mengompresi video ke ukuran 128x lebih kecil, dengan kompresi spasial 8x8 dan kompresi temporal 6x ke ruang laten 12 saluran.
Param Menghitung | Pangkalan Enc Saluran | Pangkalan Desember Saluran | Terpendam Redup | Spasial Kompresi | Sementara Kompresi |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT secara efisien memproses permintaan pengguna bersama dengan token video terkompresi dengan menyederhanakan pemrosesan teks dan memfokuskan kapasitas jaringan saraf pada penalaran visual. AsymmDiT bersama-sama menangani token teks dan visual dengan perhatian mandiri multi-modal dan mempelajari lapisan MLP terpisah untuk setiap modalitas, mirip dengan Difusi Stabil 3. Namun, aliran visual kami memiliki parameter hampir 4 kali lebih banyak daripada aliran teks melalui aliran tersembunyi yang lebih besar. dimensi. Untuk menyatukan modalitas dalam perhatian diri, kami menggunakan QKV non-persegi dan lapisan proyeksi keluaran. Desain asimetris ini mengurangi kebutuhan memori inferensi. Banyak model difusi modern menggunakan beberapa model bahasa yang telah dilatih sebelumnya untuk mewakili permintaan pengguna. Sebaliknya, Mochi 1 hanya mengkodekan perintah dengan model bahasa T5-XXL tunggal.
Param Menghitung | Nomor Lapisan | Nomor Kepala | Visual Redup | Teks Redup | Visual Token | Teks Token |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
Model ini memerlukan setidaknya 4 GPU H100 untuk dijalankan. Kami menyambut baik kontribusi dari masyarakat untuk mengurangi persyaratan ini.
Model video Genmo adalah model difusi teks-ke-video umum yang secara inheren mencerminkan bias dan prasangka yang ditemukan dalam data pelatihannya. Meskipun langkah-langkah telah diambil untuk membatasi konten NSFW, organisasi harus menerapkan protokol keselamatan tambahan dan pertimbangan yang cermat sebelum menerapkan model bobot ini pada layanan atau produk komersial apa pun.
Berdasarkan pratinjau penelitian, Mochi 1 adalah pos pemeriksaan yang hidup dan berkembang. Ada beberapa batasan yang diketahui. Rilis awal menghasilkan video pada 480p hari ini. Dalam beberapa kasus tepi dengan gerakan ekstrem, lengkungan dan distorsi kecil juga dapat terjadi. Mochi 1 juga dioptimalkan untuk gaya fotorealistik sehingga tidak berfungsi baik dengan konten animasi. Kami juga mengantisipasi bahwa komunitas akan menyempurnakan model tersebut agar sesuai dengan berbagai preferensi estetika.
ComfyUI-MochiWrapper menambahkan dukungan ComfyUI untuk Mochi. Integrasi perhatian SDPA Pytorch diambil dari repositori mereka.
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }