นี่เป็นการแยก งานที่อยู่ระหว่างดำเนินการ ของรุ่น txt2video ของ Genmoai ที่ได้รับการปรับปรุงให้ทำงานบน โหนด GPU เดียว พร้อม VRAM ที่ลดลง
มันค่อนข้างมีความสามารถด้วยความจุ 48GB แต่ตอนนี้ควรจะรันด้วย GPU 24GB ตัวเดียวในตอนนี้
ไม่เกิน 61 เฟรมและลอง 640x480 VRAM ส่วนใหญ่จะใช้สเกลตามจำนวนเฟรมและความละเอียด ขั้นตอนการอนุมานไม่ควรเปลี่ยนการใช้ VRAM แต่เวลาที่ใช้ในการสร้างวิดีโอจะปรับขนาดตามขั้นตอน ดูเหมือน 100 ก้าวจะโอเคและอาจใช้เวลาประมาณ 15-25 นาที แหล่งที่มาดั้งเดิมใช้ 200 ขั้นตอน แต่จะใช้เวลาประมาณสองเท่า
Windows ยังไม่ได้ทดสอบ แต่อาจใช้งานได้ใช่ไหม ! (ツ) /è
หากระบบของคุณใช้ VRAM สำหรับการรันเดสก์ท็อปอยู่แล้ว คุณอาจต้องลดการตั้งค่าลงอีก
ส่วนใหญ่แค่เปลี่ยน vae, te, dit ฯลฯ กลับไปกลับมาเป็น cpu เมื่อไม่ต้องการและใช้ bfloat16 ทุกที่ ซึ่งอาจต้องใช้ RAM ระบบจำนวนมาก (~64GB) หรืออาจช้าเป็นพิเศษหากต้องเปลี่ยนกลับไปใช้ไฟล์เพจ หาก RAM ของระบบ <=32G เนื่องจาก T5 และ DIT ยังมีขนาดใหญ่พอสมควร เวลาในการย้ายแบบจำลองไปมาค่อนข้างน้อยเมื่อเทียบกับเวลาในการอนุมานที่ใช้ในขั้นตอน DIT
การเพิ่มประสิทธิภาพเพิ่มเติม... อาจเป็น bitsandbytes NF4 นั่นอาจทำให้มันลดลงเหลือ 16GB หรือน้อยกว่า โดยสมมติว่ามันไม่ทำลายคุณภาพเอาต์พุต อาจลองดูว่าฉันสามารถแทรกภาพเฟรมแรกเพื่อให้ทำ img2video ได้หรือไม่
บล็อก | กอดหน้า | สนามเด็กเล่น | อาชีพ
โมเดลการสร้างวิดีโอที่ล้ำสมัยโดย Genmo
การแสดงตัวอย่าง Mochi 1 เป็นโมเดลการสร้างวิดีโอล้ำสมัยแบบเปิดที่มีการเคลื่อนไหวที่มีความเที่ยงตรงสูงและมีความสม่ำเสมอในการประเมินเบื้องต้น โมเดลนี้ปิดช่องว่างระหว่างระบบสร้างวิดีโอแบบปิดและแบบเปิดได้อย่างมาก เรากำลังเผยแพร่โมเดลภายใต้ใบอนุญาต Apache 2.0 ที่ได้รับอนุญาต ทดลองใช้นาฬิการุ่นนี้ฟรีที่สนามเด็กเล่นของเรา
ติดตั้งโดยใช้ยูวี:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
ดาวน์โหลดตุ้มน้ำหนักจาก Hugging Face หรือทาง magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
ไปยังโฟลเดอร์บนคอมพิวเตอร์ของคุณ
เริ่ม gradio UI ด้วย
python3 -m mochi_preview.gradio_ui --model_dir " "
หรือสร้างวิดีโอโดยตรงจาก CLI ด้วย
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
แทนที่
ด้วยเส้นทางไปยังไดเร็กทอรีโมเดลของคุณ
Mochi 1 แสดงถึงความก้าวหน้าที่สำคัญในการสร้างวิดีโอโอเพ่นซอร์ส โดยมีโมเดลการแพร่กระจายพารามิเตอร์ 10 พันล้านที่สร้างขึ้นบนสถาปัตยกรรม Asymmetric Diffusion Transformer (AsymmDiT) ใหม่ของเรา ได้รับการฝึกฝนตั้งแต่ต้นจนเป็นโมเดลการสร้างวิดีโอที่ใหญ่ที่สุดที่เคยเปิดตัวอย่างเปิดเผย และที่สำคัญที่สุดคือเป็นสถาปัตยกรรมที่เรียบง่ายและสามารถแฮ็กได้ นอกจากนี้ เรากำลังเปิดตัวชุดควบคุมการอนุมานซึ่งรวมถึงการใช้งานบริบทแบบขนานที่มีประสิทธิภาพ
นอกจาก Mochi แล้ว เรายังเปิดซอร์สวิดีโอ AsymmVAE ของเราอีกด้วย เราใช้โครงสร้างตัวเข้ารหัส-ตัวถอดรหัสแบบอสมมาตรเพื่อสร้างแบบจำลองการบีบอัดคุณภาพสูงที่มีประสิทธิภาพ AsymmVAE ของเราบีบอัดวิดีโออย่างเป็นสาเหตุให้มีขนาดเล็กลง 128x โดยมีการบีบอัดเชิงพื้นที่ 8x8 และการบีบอัดชั่วคราว 6x ให้เป็นพื้นที่แฝง 12 แชนเนล
พารามิเตอร์ นับ | ฐาน Enc ช่อง | ฐานธ.ค ช่อง | แฝง สลัว | เชิงพื้นที่ การบีบอัด | ชั่วขณะ การบีบอัด |
---|---|---|---|---|---|
362ม | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT ประมวลผลข้อความแจ้งของผู้ใช้อย่างมีประสิทธิภาพควบคู่ไปกับโทเค็นวิดีโอที่ถูกบีบอัด โดยปรับปรุงการประมวลผลข้อความให้มีประสิทธิภาพยิ่งขึ้น และมุ่งเน้นไปที่ความจุของโครงข่ายประสาทเทียมในการให้เหตุผลด้วยภาพ AsymmDiT ร่วมกันดูแลโทเค็นข้อความและภาพด้วยการเอาใจใส่ตนเองแบบหลายรูปแบบ และเรียนรู้ชั้น MLP แยกกันสำหรับแต่ละรูปแบบ ซึ่งคล้ายกับ Stable Diffusion 3 อย่างไรก็ตาม สตรีมภาพของเรามีพารามิเตอร์เกือบ 4 เท่าของสตรีมข้อความผ่านทางการซ่อนที่ใหญ่กว่า มิติ. เพื่อรวมวิธีการในการเอาใจใส่ตนเอง เราใช้ QKV ที่ไม่ใช่สี่เหลี่ยมจัตุรัสและเลเยอร์การฉายภาพเอาท์พุต การออกแบบที่ไม่สมมาตรนี้ช่วยลดความต้องการหน่วยความจำอนุมาน โมเดลการแพร่กระจายสมัยใหม่จำนวนมากใช้โมเดลภาษาที่ได้รับการฝึกล่วงหน้าหลายแบบเพื่อแสดงพร้อมท์ของผู้ใช้ ในทางตรงกันข้าม Mochi 1 เพียงเข้ารหัสข้อความแจ้งด้วยโมเดลภาษา T5-XXL เดียว
พารามิเตอร์ นับ | หมายเลข เลเยอร์ | หมายเลข หัว | ภาพ สลัว | ข้อความ สลัว | ภาพ โทเค็น | ข้อความ โทเค็น |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
โมเดลนี้ต้องมี GPU H100 อย่างน้อย 4 ตัวจึงจะทำงานได้ เรายินดีรับการสนับสนุนจากชุมชนเพื่อลดข้อกำหนดนี้
โมเดลวิดีโอ Genmo เป็นโมเดลการแพร่กระจายข้อความเป็นวิดีโอทั่วไปที่สะท้อนถึงอคติและอคติที่พบในข้อมูลการฝึกโดยเนื้อแท้ แม้ว่าจะมีการดำเนินการตามขั้นตอนเพื่อจำกัดเนื้อหา NSFW แล้ว องค์กรต่างๆ ควรใช้ระเบียบการด้านความปลอดภัยเพิ่มเติมและการพิจารณาอย่างรอบคอบก่อนที่จะปรับใช้ตุ้มน้ำหนักแบบจำลองเหล่านี้ในบริการหรือผลิตภัณฑ์เชิงพาณิชย์ใดๆ
ภายใต้ตัวอย่างงานวิจัย โมจิ 1 เป็นจุดตรวจที่มีชีวิตและกำลังพัฒนา มีข้อจำกัดบางประการที่ทราบ การเปิดตัวครั้งแรกจะสร้างวิดีโอที่ 480p ในวันนี้ ในบางกรณีขอบที่มีการเคลื่อนไหวมาก อาจเกิดการบิดเบี้ยวและการบิดเบี้ยวเล็กน้อยได้ Mochi 1 ยังได้รับการปรับให้เหมาะกับสไตล์ที่เหมือนจริงด้วยแสง ดังนั้นจึงทำงานได้ไม่ดีกับเนื้อหาที่เป็นภาพเคลื่อนไหว นอกจากนี้เรายังคาดหวังว่าชุมชนจะปรับแต่งโมเดลให้เหมาะกับความต้องการด้านสุนทรียภาพต่างๆ
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}