Ini merupakan fork yang sedang dalam proses dari model txt2video Genmoai yang dioptimalkan untuk berjalan pada Node GPU tunggal dengan VRAM yang dikurangi.
Ini cukup mumpuni dengan 48GB, tetapi sekarang seharusnya bisa dijalankan dengan satu GPU 24GB.
Jangan melebihi 61 frame dan coba 640x480. VRAM sebagian besar menggunakan skala dengan jumlah frame dan resolusi. Langkah-langkah inferensi tidak boleh mengubah penggunaan VRAM, tetapi waktu yang dibutuhkan untuk membuat video berskala seiring dengan langkah-langkahnya. 100 langkah sepertinya oke dan kemungkinan akan memakan waktu 15-25 menit. Sumber asli menggunakan 200 langkah, namun ini akan memakan waktu dua kali lebih lama.
Windows belum diuji, tapi mungkin bisa berfungsi? ¯ (ツ) /¯
Jika sistem Anda sudah menggunakan VRAM untuk menjalankan desktop, Anda mungkin perlu menurunkan pengaturan lebih lanjut.
Kebanyakan hanya menggeser vae, te, dit, dll bolak-balik ke cpu saat tidak diperlukan dan menggunakan bfloat16 di mana-mana. Ini mungkin memerlukan RAM sistem yang signifikan (~64GB) atau mungkin ekstra lambat jika harus kembali menggunakan file halaman jika RAM sistem <=32G karena T5 dan DIT masih cukup besar. Waktu untuk menggerakkan model bolak-balik cukup kecil dibandingkan dengan waktu inferensi yang dihabiskan dalam langkah DIT.
Pengoptimalan lebih lanjut... Mungkin bitsandbytes NF4. Hal ini mungkin akan menurunkannya menjadi 16 GB atau kurang, dengan asumsi hal tersebut tidak merusak kualitas keluaran. Boleh mencoba melihat apakah saya dapat memasukkan gambar bingkai pertama untuk membuatnya menjadi img2video.
Blog | Memeluk Wajah | Taman bermain | Karir
Model pembuatan video canggih dari Genmo.
Pratinjau Mochi 1 adalah model pembuatan video canggih dan terbuka dengan gerakan fidelitas tinggi dan kepatuhan cepat yang kuat dalam evaluasi awal. Model ini secara dramatis menutup kesenjangan antara sistem pembuatan video tertutup dan terbuka. Kami merilis model ini di bawah lisensi Apache 2.0 yang permisif. Coba model ini secara gratis di taman bermain kami.
Instal menggunakan uv:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Unduh beban dari Hugging Face atau melalui magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
ke folder di komputer Anda.
Mulai gradio UI dengan
python3 -m mochi_preview.gradio_ui --model_dir " "
Atau buat video langsung dari CLI dengan
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
Ganti
dengan jalur ke direktori model Anda.
Mochi 1 mewakili kemajuan signifikan dalam pembuatan video sumber terbuka, menampilkan model difusi 10 miliar parameter yang dibangun berdasarkan arsitektur Asymmetric Diffusion Transformer (AsymmDiT) baru kami. Dilatih sepenuhnya dari awal, ini adalah model generatif video terbesar yang pernah dirilis secara terbuka. Dan yang terbaik dari semuanya, arsitekturnya sederhana dan dapat diretas. Selain itu, kami merilis memanfaatkan inferensi yang mencakup implementasi paralel konteks yang efisien.
Selain Mochi, kami juga membuka sumber video AsymmVAE kami. Kami menggunakan struktur encoder-decoder asimetris untuk membangun model kompresi berkualitas tinggi yang efisien. AsymmVAE kami secara kausal mengompresi video ke ukuran 128x lebih kecil, dengan kompresi spasial 8x8 dan kompresi temporal 6x ke ruang laten 12 saluran.
Param Menghitung | Pangkalan Enc Saluran | Pangkalan Desember Saluran | Terpendam Redup | Spasial Kompresi | Sementara Kompresi |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT secara efisien memproses permintaan pengguna bersama dengan token video terkompresi dengan menyederhanakan pemrosesan teks dan memfokuskan kapasitas jaringan saraf pada penalaran visual. AsymmDiT bersama-sama menangani token teks dan visual dengan perhatian mandiri multi-modal dan mempelajari lapisan MLP terpisah untuk setiap modalitas, mirip dengan Difusi Stabil 3. Namun, aliran visual kami memiliki parameter hampir 4 kali lebih banyak daripada aliran teks melalui aliran tersembunyi yang lebih besar. dimensi. Untuk menyatukan modalitas dalam perhatian diri, kami menggunakan QKV non-persegi dan lapisan proyeksi keluaran. Desain asimetris ini mengurangi kebutuhan memori inferensi. Banyak model difusi modern menggunakan beberapa model bahasa yang telah dilatih sebelumnya untuk mewakili permintaan pengguna. Sebaliknya, Mochi 1 hanya mengkodekan perintah dengan model bahasa T5-XXL tunggal.
Param Menghitung | Nomor Lapisan | Nomor Kepala | Visual Redup | Teks Redup | Visual Token | Teks Token |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
Model ini memerlukan setidaknya 4 GPU H100 untuk dijalankan. Kami menyambut baik kontribusi dari masyarakat untuk mengurangi persyaratan ini.
Model video Genmo adalah model difusi teks-ke-video umum yang secara inheren mencerminkan bias dan prasangka yang ditemukan dalam data pelatihannya. Meskipun langkah-langkah telah diambil untuk membatasi konten NSFW, organisasi harus menerapkan protokol keselamatan tambahan dan pertimbangan yang cermat sebelum menerapkan model bobot ini pada layanan atau produk komersial apa pun.
Berdasarkan pratinjau penelitian, Mochi 1 adalah pos pemeriksaan yang hidup dan berkembang. Ada beberapa batasan yang diketahui. Rilis awal menghasilkan video pada 480p hari ini. Dalam beberapa kasus tepi dengan gerakan ekstrem, lengkungan dan distorsi kecil juga dapat terjadi. Mochi 1 juga dioptimalkan untuk gaya fotorealistik sehingga tidak berfungsi baik dengan konten animasi. Kami juga mengantisipasi bahwa komunitas akan menyempurnakan model tersebut agar sesuai dengan berbagai preferensi estetika.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}