บล็อก | กอดหน้า | สนามเด็กเล่น | อาชีพ
โมเดลการสร้างวิดีโอที่ล้ำสมัยโดย Genmo
การแสดงตัวอย่าง Mochi 1 เป็นโมเดลการสร้างวิดีโอล้ำสมัยแบบเปิดที่มีการเคลื่อนไหวที่มีความเที่ยงตรงสูงและมีความสม่ำเสมอในการประเมินเบื้องต้น โมเดลนี้ปิดช่องว่างระหว่างระบบสร้างวิดีโอแบบปิดและแบบเปิดได้อย่างมาก เรากำลังเผยแพร่โมเดลภายใต้ใบอนุญาต Apache 2.0 ที่ได้รับอนุญาต ทดลองใช้นาฬิการุ่นนี้ฟรีที่สนามเด็กเล่นของเรา
ติดตั้งโดยใช้ยูวี:
git clone https://github.com/genmoai/modelscd รุ่นต่างๆ pip ติดตั้ง uv ยูวี venv .venvsource .venv/bin/activate uv pip ติดตั้ง setuptools uv pip ติดตั้ง -e --ไม่มีการสร้าง-แยก
หากคุณต้องการติดตั้ง Flash Attention คุณสามารถใช้:
uv pip install -e .[flash] --no-build-isolation
คุณจะต้องติดตั้ง FFMPEG เพื่อเปลี่ยนเอาต์พุตของคุณให้เป็นวิดีโอ
ใช้ download_weights.py เพื่อดาวน์โหลดโมเดล + ตัวถอดรหัสไปยังไดเร็กทอรีในเครื่อง ใช้มันเช่นนี้:
python3 ./scripts/download_weights.py <path_to_downloaded_directory>
หรือดาวน์โหลดตุ้มน้ำหนักโดยตรงจาก Hugging Face หรือผ่านทาง magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
ไปยังโฟลเดอร์บนคอมพิวเตอร์ของคุณ
เริ่ม gradio UI ด้วย
python3 ./demos/gradio_ui.py --model_dir "<path_to_downloaded_directory>"
หรือสร้างวิดีโอโดยตรงจาก CLI ด้วย
python3 ./demos/cli.py --model_dir "<path_to_downloaded_directory>"
แทนที่ <path_to_downloaded_directory>
ด้วยเส้นทางไปยังไดเร็กทอรีโมเดลของคุณ
พื้นที่เก็บข้อมูลนี้มาพร้อมกับ API ที่เรียบง่ายและเขียนได้ คุณจึงสามารถเรียกใช้โมเดลโดยทางโปรแกรมได้ คุณสามารถดูตัวอย่างแบบเต็มได้ที่นี่ แต่ดูคร่าวๆแล้วจะเป็นดังนี้:
จาก genmo.mochi_preview.pipelines นำเข้า ( DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory, linear_quadratic_schedule, )ไปป์ไลน์ = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), decoder_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ), cpu_offload=จริง, decode_type="tiled_full", )video = ไปป์ไลน์( height=480, width=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, batt_cfg=False, prompt="your favorite prompt here ..", ลบ_พร้อมท์ = "", เมล็ด=12345, -
Mochi 1 แสดงถึงความก้าวหน้าที่สำคัญในการสร้างวิดีโอโอเพ่นซอร์ส โดยมีโมเดลการแพร่กระจายพารามิเตอร์ 10 พันล้านที่สร้างขึ้นบนสถาปัตยกรรม Asymmetric Diffusion Transformer (AsymmDiT) ใหม่ของเรา ได้รับการฝึกฝนตั้งแต่ต้นจนเป็นโมเดลการสร้างวิดีโอที่ใหญ่ที่สุดที่เคยเปิดตัวอย่างเปิดเผย และที่ดีที่สุดคือเป็นสถาปัตยกรรมที่เรียบง่ายและสามารถแฮ็กได้ นอกจากนี้ เรากำลังเปิดตัวชุดควบคุมการอนุมานซึ่งรวมถึงการใช้งานบริบทแบบขนานที่มีประสิทธิภาพ
นอกจาก Mochi แล้ว เรายังเปิดซอร์สวิดีโอ AsymmVAE ของเราอีกด้วย เราใช้โครงสร้างตัวเข้ารหัส-ตัวถอดรหัสแบบอสมมาตรเพื่อสร้างแบบจำลองการบีบอัดคุณภาพสูงที่มีประสิทธิภาพ AsymmVAE ของเราบีบอัดวิดีโออย่างเป็นสาเหตุให้มีขนาดเล็กลง 128x โดยมีการบีบอัดเชิงพื้นที่ 8x8 และการบีบอัดชั่วคราว 6x ให้เป็นพื้นที่แฝง 12 แชนเนล
พารามิเตอร์ นับ | ฐาน Enc ช่อง | ฐานธ.ค ช่อง | แฝง สลัว | เชิงพื้นที่ การบีบอัด | ชั่วขณะ การบีบอัด |
---|---|---|---|---|---|
362ม | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT ประมวลผลข้อความแจ้งของผู้ใช้อย่างมีประสิทธิภาพควบคู่ไปกับโทเค็นวิดีโอที่ถูกบีบอัด โดยปรับปรุงการประมวลผลข้อความให้มีประสิทธิภาพยิ่งขึ้น และมุ่งเน้นไปที่ความจุของโครงข่ายประสาทเทียมในการให้เหตุผลด้วยภาพ AsymmDiT ร่วมกันดูแลโทเค็นข้อความและภาพด้วยการเอาใจใส่ตนเองแบบหลายรูปแบบ และเรียนรู้เลเยอร์ MLP แยกกันสำหรับแต่ละรูปแบบ ซึ่งคล้ายกับ Stable Diffusion 3 อย่างไรก็ตาม สตรีมภาพของเรามีพารามิเตอร์เกือบ 4 เท่าของสตรีมข้อความผ่านทางการซ่อนที่ใหญ่กว่า มิติ. เพื่อรวมวิธีการในการเอาใจใส่ตนเอง เราใช้ QKV ที่ไม่ใช่สี่เหลี่ยมจัตุรัสและเลเยอร์การฉายภาพเอาท์พุต การออกแบบที่ไม่สมมาตรนี้ช่วยลดความต้องการหน่วยความจำอนุมาน โมเดลการแพร่กระจายสมัยใหม่จำนวนมากใช้โมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าหลายแบบเพื่อแสดงพร้อมท์ของผู้ใช้ ในทางตรงกันข้าม Mochi 1 เพียงเข้ารหัสข้อความแจ้งด้วยโมเดลภาษา T5-XXL เดียว
พารามิเตอร์ นับ | หมายเลข เลเยอร์ | หมายเลข หัว | ภาพ สลัว | ข้อความ สลัว | ภาพ โทเค็น | ข้อความ โทเค็น |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
โมเดลนี้ต้องใช้ GPU H100 อย่างน้อย 4 ตัวจึงจะทำงานได้ เรายินดีรับการสนับสนุนจากชุมชนเพื่อลดข้อกำหนดนี้
โมเดลวิดีโอ Genmo เป็นโมเดลการแพร่กระจายข้อความเป็นวิดีโอทั่วไปที่สะท้อนถึงอคติและอคติที่พบในข้อมูลการฝึกโดยเนื้อแท้ แม้ว่าจะมีการดำเนินการตามขั้นตอนเพื่อจำกัดเนื้อหา NSFW แล้ว องค์กรต่างๆ ควรใช้ระเบียบการด้านความปลอดภัยเพิ่มเติมและการพิจารณาอย่างรอบคอบก่อนที่จะปรับใช้ตุ้มน้ำหนักแบบจำลองเหล่านี้ในบริการหรือผลิตภัณฑ์เชิงพาณิชย์ใดๆ
ภายใต้ตัวอย่างงานวิจัย โมจิ 1 เป็นจุดตรวจที่มีชีวิตและกำลังพัฒนา มีข้อจำกัดบางประการที่ทราบ การเปิดตัวครั้งแรกจะสร้างวิดีโอที่ 480p ในวันนี้ ในบางกรณีขอบที่มีการเคลื่อนไหวมาก อาจเกิดการบิดเบี้ยวและการบิดเบี้ยวเล็กน้อยได้ Mochi 1 ยังได้รับการปรับให้เหมาะกับสไตล์ที่เหมือนจริงด้วยแสง ดังนั้นจึงทำงานได้ไม่ดีกับเนื้อหาที่เป็นภาพเคลื่อนไหว นอกจากนี้เรายังคาดหวังว่าชุมชนจะปรับแต่งโมเดลให้เหมาะกับความต้องการด้านสุนทรียภาพต่างๆ
ComfyUI-MochiWrapper เพิ่มการรองรับ ComfyUI สำหรับ Mochi การบูรณาการความสนใจ SDPA ของ Pytorch ถูกพรากไปจากพื้นที่เก็บข้อมูลของพวกเขา
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }