ดาวน์โหลด models - models ดาวน์โหลดซอร์สโค้ด

models

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

โมจิ1

บล็อก | กอดหน้า | สนามเด็กเล่น | อาชีพ

โมเดลการสร้างวิดีโอที่ล้ำสมัยโดย Genmo

grid_output.mp4

ภาพรวม

การแสดงตัวอย่าง Mochi 1 เป็นโมเดลการสร้างวิดีโอล้ำสมัยแบบเปิดที่มีการเคลื่อนไหวที่มีความเที่ยงตรงสูงและมีความสม่ำเสมอในการประเมินเบื้องต้น โมเดลนี้ปิดช่องว่างระหว่างระบบสร้างวิดีโอแบบปิดและแบบเปิดได้อย่างมาก เรากำลังเผยแพร่โมเดลภายใต้ใบอนุญาต Apache 2.0 ที่ได้รับอนุญาต ทดลองใช้นาฬิการุ่นนี้ฟรีที่สนามเด็กเล่นของเรา

การติดตั้ง

ติดตั้งโดยใช้ยูวี:

 git clone https://github.com/genmoai/modelscd รุ่นต่างๆ
 pip ติดตั้ง uv
ยูวี venv .venvsource .venv/bin/activate
uv pip ติดตั้ง setuptools
uv pip ติดตั้ง -e --ไม่มีการสร้าง-แยก

หากคุณต้องการติดตั้ง Flash Attention คุณสามารถใช้:

uv pip install -e .[flash] --no-build-isolation

คุณจะต้องติดตั้ง FFMPEG เพื่อเปลี่ยนเอาต์พุตของคุณให้เป็นวิดีโอ

ดาวน์โหลดตุ้มน้ำหนัก

ใช้ download_weights.py เพื่อดาวน์โหลดโมเดล + ตัวถอดรหัสไปยังไดเร็กทอรีในเครื่อง ใช้มันเช่นนี้:

python3 ./scripts/download_weights.py <path_to_downloaded_directory>

หรือดาวน์โหลดตุ้มน้ำหนักโดยตรงจาก Hugging Face หรือผ่านทาง magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce ไปยังโฟลเดอร์บนคอมพิวเตอร์ของคุณ

วิ่ง

เริ่ม gradio UI ด้วย

 python3 ./demos/gradio_ui.py --model_dir "<path_to_downloaded_directory>"

หรือสร้างวิดีโอโดยตรงจาก CLI ด้วย

 python3 ./demos/cli.py --model_dir "<path_to_downloaded_directory>"

แทนที่ <path_to_downloaded_directory> ด้วยเส้นทางไปยังไดเร็กทอรีโมเดลของคุณ

เอพีไอ

พื้นที่เก็บข้อมูลนี้มาพร้อมกับ API ที่เรียบง่ายและเขียนได้ คุณจึงสามารถเรียกใช้โมเดลโดยทางโปรแกรมได้ คุณสามารถดูตัวอย่างแบบเต็มได้ที่นี่ แต่ดูคร่าวๆแล้วจะเป็นดังนี้:

 จาก genmo.mochi_preview.pipelines นำเข้า ( DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory, linear_quadratic_schedule,
)ไปป์ไลน์ = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16"
    ), decoder_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors",
    ), cpu_offload=จริง, decode_type="tiled_full",
)video = ไปป์ไลน์( height=480, width=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, batt_cfg=False, prompt="your favorite prompt here ..", ลบ_พร้อมท์ = "", เมล็ด=12345,
-

สถาปัตยกรรมแบบจำลอง

Mochi 1 แสดงถึงความก้าวหน้าที่สำคัญในการสร้างวิดีโอโอเพ่นซอร์ส โดยมีโมเดลการแพร่กระจายพารามิเตอร์ 10 พันล้านที่สร้างขึ้นบนสถาปัตยกรรม Asymmetric Diffusion Transformer (AsymmDiT) ใหม่ของเรา ได้รับการฝึกฝนตั้งแต่ต้นจนเป็นโมเดลการสร้างวิดีโอที่ใหญ่ที่สุดที่เคยเปิดตัวอย่างเปิดเผย และที่ดีที่สุดคือเป็นสถาปัตยกรรมที่เรียบง่ายและสามารถแฮ็กได้ นอกจากนี้ เรากำลังเปิดตัวชุดควบคุมการอนุมานซึ่งรวมถึงการใช้งานบริบทแบบขนานที่มีประสิทธิภาพ

นอกจาก Mochi แล้ว เรายังเปิดซอร์สวิดีโอ AsymmVAE ของเราอีกด้วย เราใช้โครงสร้างตัวเข้ารหัส-ตัวถอดรหัสแบบอสมมาตรเพื่อสร้างแบบจำลองการบีบอัดคุณภาพสูงที่มีประสิทธิภาพ AsymmVAE ของเราบีบอัดวิดีโออย่างเป็นสาเหตุให้มีขนาดเล็กลง 128x โดยมีการบีบอัดเชิงพื้นที่ 8x8 และการบีบอัดชั่วคราว 6x ให้เป็นพื้นที่แฝง 12 แชนเนล

ข้อมูลจำเพาะรุ่น AsymmVAE

พารามิเตอร์ นับ	ฐาน Enc ช่อง	ฐานธ.ค ช่อง	แฝง สลัว	เชิงพื้นที่ การบีบอัด	ชั่วขณะ การบีบอัด
362ม	64	128	12	8x8	6x

AsymmDiT ประมวลผลข้อความแจ้งของผู้ใช้อย่างมีประสิทธิภาพควบคู่ไปกับโทเค็นวิดีโอที่ถูกบีบอัด โดยปรับปรุงการประมวลผลข้อความให้มีประสิทธิภาพยิ่งขึ้น และมุ่งเน้นไปที่ความจุของโครงข่ายประสาทเทียมในการให้เหตุผลด้วยภาพ AsymmDiT ร่วมกันดูแลโทเค็นข้อความและภาพด้วยการเอาใจใส่ตนเองแบบหลายรูปแบบ และเรียนรู้เลเยอร์ MLP แยกกันสำหรับแต่ละรูปแบบ ซึ่งคล้ายกับ Stable Diffusion 3 อย่างไรก็ตาม สตรีมภาพของเรามีพารามิเตอร์เกือบ 4 เท่าของสตรีมข้อความผ่านทางการซ่อนที่ใหญ่กว่า มิติ. เพื่อรวมวิธีการในการเอาใจใส่ตนเอง เราใช้ QKV ที่ไม่ใช่สี่เหลี่ยมจัตุรัสและเลเยอร์การฉายภาพเอาท์พุต การออกแบบที่ไม่สมมาตรนี้ช่วยลดความต้องการหน่วยความจำอนุมาน โมเดลการแพร่กระจายสมัยใหม่จำนวนมากใช้โมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าหลายแบบเพื่อแสดงพร้อมท์ของผู้ใช้ ในทางตรงกันข้าม Mochi 1 เพียงเข้ารหัสข้อความแจ้งด้วยโมเดลภาษา T5-XXL เดียว

ข้อมูลจำเพาะรุ่น AsymmDiT

พารามิเตอร์ นับ	หมายเลข เลเยอร์	หมายเลข หัว	ภาพ สลัว	ข้อความ สลัว	ภาพ โทเค็น	ข้อความ โทเค็น
10B	48	24	3072	1536	44520	256

ข้อกำหนดด้านฮาร์ดแวร์

โมเดลนี้ต้องใช้ GPU H100 อย่างน้อย 4 ตัวจึงจะทำงานได้ เรายินดีรับการสนับสนุนจากชุมชนเพื่อลดข้อกำหนดนี้

ความปลอดภัย

โมเดลวิดีโอ Genmo เป็นโมเดลการแพร่กระจายข้อความเป็นวิดีโอทั่วไปที่สะท้อนถึงอคติและอคติที่พบในข้อมูลการฝึกโดยเนื้อแท้ แม้ว่าจะมีการดำเนินการตามขั้นตอนเพื่อจำกัดเนื้อหา NSFW แล้ว องค์กรต่างๆ ควรใช้ระเบียบการด้านความปลอดภัยเพิ่มเติมและการพิจารณาอย่างรอบคอบก่อนที่จะปรับใช้ตุ้มน้ำหนักแบบจำลองเหล่านี้ในบริการหรือผลิตภัณฑ์เชิงพาณิชย์ใดๆ

ข้อจำกัด

ภายใต้ตัวอย่างงานวิจัย โมจิ 1 เป็นจุดตรวจที่มีชีวิตและกำลังพัฒนา มีข้อจำกัดบางประการที่ทราบ การเปิดตัวครั้งแรกจะสร้างวิดีโอที่ 480p ในวันนี้ ในบางกรณีขอบที่มีการเคลื่อนไหวมาก อาจเกิดการบิดเบี้ยวและการบิดเบี้ยวเล็กน้อยได้ Mochi 1 ยังได้รับการปรับให้เหมาะกับสไตล์ที่เหมือนจริงด้วยแสง ดังนั้นจึงทำงานได้ไม่ดีกับเนื้อหาที่เป็นภาพเคลื่อนไหว นอกจากนี้เรายังคาดหวังว่าชุมชนจะปรับแต่งโมเดลให้เหมาะกับความต้องการด้านสุนทรียภาพต่างๆ

งานที่เกี่ยวข้อง

ComfyUI-MochiWrapper เพิ่มการรองรับ ComfyUI สำหรับ Mochi การบูรณาการความสนใจ SDPA ของ Pytorch ถูกพรากไปจากพื้นที่เก็บข้อมูลของพวกเขา

บิบเท็กซ์

@misc{genmo2024mochi,
      title={Mochi},
      author={Genmo Team},
      year={2024}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-03
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

llama models

2024-11-10
pytorch image models

2024-11-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด