博客 |拥抱脸|游乐场|职业机会
Genmo 最先进的视频生成模型。
Mochi 1 预览版是一种开放的最先进的视频生成模型,具有高保真度运动和初步评估中的强烈提示依从性。该模型极大地缩小了封闭式和开放式视频生成系统之间的差距。我们将在宽松的 Apache 2.0 许可证下发布该模型。在我们的游乐场上免费尝试这个模型。
使用 uv 安装:
git clone https://github.com/genmoai/modelscd 模型 点安装紫外线 uv venv .venvsource .venv/bin/activate uv pip 安装 setuptools uv pip install -e 。 --无构建隔离
如果要安装flash注意,可以使用:
uv pip install -e .[flash] --no-build-isolation
您还需要安装 FFMPEG 将输出转换为视频。
使用 download_weights.py 将模型+解码器下载到本地目录。像这样使用它:
python3 ./scripts/download_weights.py <path_to_downloaded_directory>
或者,直接从 Hugging Face 或通过magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
到计算机上的文件夹。
启动渐变 UI
python3 ./demos/gradio_ui.py --model_dir "<下载目录路径>"
或者直接从 CLI 生成视频
python3 ./demos/cli.py --model_dir "<下载目录路径>"
将<path_to_downloaded_directory>
替换为模型目录的路径。
该存储库附带一个简单的可组合 API,因此您可以通过编程方式调用该模型。您可以在这里找到完整的示例。但是,粗略地说,它看起来像这样:
从 genmo.mochi_preview.pipelines 导入(DecoderModelFactory、DitModelFactory、MochiSingleGPUPipeline、T5ModelFactory、线性_quadratic_schedule、 )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), detector_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ),cpu_offload=True,decode_type=“tile_full”, )video = pipeline( height=480, width=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, batch_cfg=False,prompt="您最喜欢的提示在这里。 ..", negative_prompt="",种子=12345, )
Mochi 1 代表了开源视频生成领域的重大进步,具有基于我们新颖的非对称扩散变压器 (AsymmDiT) 架构构建的 100 亿参数扩散模型。它完全从头开始训练,是迄今为止公开发布的最大的视频生成模型。最重要的是,它是一个简单、可破解的架构。此外,我们还发布了一个推理工具,其中包括高效的上下文并行实现。
除了 Mochi 之外,我们还开源了我们的视频 AsymmVAE。我们使用非对称编码器-解码器结构来构建高效的高质量压缩模型。我们的 AsymmVAE 因果地将视频压缩到 128 倍小尺寸,并通过 8x8 空间压缩和 6x 时间压缩到 12 通道潜在空间。
参数 数数 | 编码基地 渠道 | 十二月基准 渠道 | 潜 暗淡 | 空间 压缩 | 颞 压缩 |
---|---|---|---|---|---|
362M | 64 | 128 | 12 | 8x8 | 6x |
AsymmDiT 通过简化文本处理并将神经网络能力集中在视觉推理上,有效地处理用户提示和压缩视频标记。 AsymmDiT 通过多模态自注意力机制联合关注文本和视觉标记,并为每种模态学习单独的 MLP 层,类似于稳定扩散 3。然而,我们的视觉流通过更大的隐藏参数,其参数数量几乎是文本流的 4 倍。方面。为了统一自注意力的模式,我们使用非方形 QKV 和输出投影层。这种不对称设计降低了推理内存需求。许多现代扩散模型使用多个预训练的语言模型来表示用户提示。相比之下,Mochi 1 只是使用单个 T5-XXL 语言模型对提示进行编码。
参数 数数 | 数量 层数 | 数量 头 | 视觉的 暗淡 | 文本 暗淡 | 视觉的 代币 | 文本 代币 |
---|---|---|---|---|---|---|
10B | 48 | 24 | 3072 | 1536 | 44520 | 256 |
该模型至少需要 4 个 H100 GPU 才能运行。我们欢迎社区做出贡献以减少这一要求。
Genmo 视频模型是通用的文本到视频扩散模型,本质上反映了训练数据中发现的偏见和先入之见。虽然已采取措施限制 NSFW 内容,但组织应在任何商业服务或产品中部署这些模型权重之前实施额外的安全协议并仔细考虑。
根据研究预览,Mochi 1 是一个活生生的、不断发展的检查点。有一些已知的限制。今天,初始版本生成 480p 的视频。在一些极端运动的边缘情况下,也可能会发生轻微的扭曲和扭曲。 Mochi 1 还针对逼真风格进行了优化,因此在动画内容上表现不佳。我们还预计社区将微调模型以适应不同的审美偏好。
ComfyUI-MochiWrapper 添加了对 Mochi 的 ComfyUI 支持。 Pytorch 的 SDPA 注意力的集成是从他们的存储库中获取的。
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }