models下载 - models源码下载

models

其他源码

下载

麻糬 1

博客 |拥抱脸|游乐场|职业机会

Genmo 最先进的视频生成模型。

网格输出.mp4

概述

Mochi 1 预览版是一种开放的最先进的视频生成模型，具有高保真度运动和初步评估中的强烈提示依从性。该模型极大地缩小了封闭式和开放式视频生成系统之间的差距。我们将在宽松的 Apache 2.0 许可证下发布该模型。在我们的游乐场上免费尝试这个模型。

安装

使用 uv 安装：

 git clone https://github.com/genmoai/modelscd 模型
 点安装紫外线
uv venv .venvsource .venv/bin/activate
uv pip 安装 setuptools
uv pip install -e 。 --无构建隔离

如果要安装flash注意，可以使用：

uv pip install -e .[flash] --no-build-isolation

您还需要安装 FFMPEG 将输出转换为视频。

下载权重

使用 download_weights.py 将模型+解码器下载到本地目录。像这样使用它：

python3 ./scripts/download_weights.py <path_to_downloaded_directory>

或者，直接从 Hugging Face 或通过magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce到计算机上的文件夹。

跑步

启动渐变 UI

 python3 ./demos/gradio_ui.py --model_dir "<下载目录路径>"

或者直接从 CLI 生成视频

python3 ./demos/cli.py --model_dir "<下载目录路径>"

将<path_to_downloaded_directory>替换为模型目录的路径。

应用程序编程接口

该存储库附带一个简单的可组合 API，因此您可以通过编程方式调用该模型。您可以在这里找到完整的示例。但是，粗略地说，它看起来像这样：

从 genmo.mochi_preview.pipelines 导入（DecoderModelFactory、DitModelFactory、MochiSingleGPUPipeline、T5ModelFactory、线性_quadratic_schedule、
)pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16"
    ), detector_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors",
    ），cpu_offload=True，decode_type=“tile_full”，
)video = pipeline( height=480, width=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0.025), cfg_schedule=[4.5] * 64, batch_cfg=False,prompt="您最喜欢的提示在这里。 ..", negative_prompt="",种子=12345，
）

模型架构

Mochi 1 代表了开源视频生成领域的重大进步，具有基于我们新颖的非对称扩散变压器 (AsymmDiT) 架构构建的 100 亿参数扩散模型。它完全从头开始训练，是迄今为止公开发布的最大的视频生成模型。最重要的是，它是一个简单、可破解的架构。此外，我们还发布了一个推理工具，其中包括高效的上下文并行实现。

除了 Mochi 之外，我们还开源了我们的视频 AsymmVAE。我们使用非对称编码器-解码器结构来构建高效的高质量压缩模型。我们的 AsymmVAE 因果地将视频压缩到 128 倍小尺寸，并通过 8x8 空间压缩和 6x 时间压缩到 12 通道潜在空间。

AsymmVAE 型号规格

参数数数	编码基地渠道	十二月基准渠道	潜暗淡	空间压缩	颞压缩
362M	64	128	12	8x8	6x

AsymmDiT 通过简化文本处理并将神经网络能力集中在视觉推理上，有效地处理用户提示和压缩视频标记。 AsymmDiT 通过多模态自注意力机制联合关注文本和视觉标记，并为每种模态学习单独的 MLP 层，类似于稳定扩散 3。然而，我们的视觉流通过更大的隐藏参数，其参数数量几乎是文本流的 4 倍。方面。为了统一自注意力的模式，我们使用非方形 QKV 和输出投影层。这种不对称设计降低了推理内存需求。许多现代扩散模型使用多个预训练的语言模型来表示用户提示。相比之下，Mochi 1 只是使用单个 T5-XXL 语言模型对提示进行编码。

AsymmDiT 型号规格

参数数数	数量层数	数量头	视觉的暗淡	文本暗淡	视觉的代币	文本代币
10B	48	24	3072	1536	44520	256

硬件要求

该模型至少需要 4 个 H100 GPU 才能运行。我们欢迎社区做出贡献以减少这一要求。

安全

Genmo 视频模型是通用的文本到视频扩散模型，本质上反映了训练数据中发现的偏见和先入之见。虽然已采取措施限制 NSFW 内容，但组织应在任何商业服务或产品中部署这些模型权重之前实施额外的安全协议并仔细考虑。

局限性

根据研究预览，Mochi 1 是一个活生生的、不断发展的检查点。有一些已知的限制。今天，初始版本生成 480p 的视频。在一些极端运动的边缘情况下，也可能会发生轻微的扭曲和扭曲。 Mochi 1 还针对逼真风格进行了优化，因此在动画内容上表现不佳。我们还预计社区将微调模型以适应不同的审美偏好。

书目词典

@misc{genmo2024mochi,
      title={Mochi},
      author={Genmo Team},
      year={2024}
}

展开

附加信息

版本
类型其他源码
更新时间 2024-11-03
大小 50MB
来自于 Github

models

麻糬 1

概述

安装

下载权重

跑步

应用程序编程接口

模型架构

AsymmVAE 型号规格

AsymmDiT 型号规格

硬件要求

安全

局限性

相关工作

书目词典

llama models

pytorch image models

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind