Блог | Обнимающее лицо | Детская площадка | Карьера
Современная модель генерации видео от Genmo.
Предварительный просмотр Mochi 1 — это открытая современная модель создания видео с высокой точностью воспроизведения движений и строгим соблюдением требований при предварительной оценке. Эта модель резко сокращает разрыв между закрытыми и открытыми системами генерации видео. Мы выпускаем модель под разрешительной лицензией Apache 2.0. Попробуйте эту модель бесплатно на нашей игровой площадке.
Установить с помощью УФ:
git clone https://github.com/genmoai/modelscd модели пип установить уф уф venv .venvsource .venv/bin/activate uv pip установить инструменты настройки uv pip install -e . --no-build-isolation
Если вы хотите установить вспышку внимания, вы можете использовать:
uv pip install -e .[flash] --no-build-isolation
Вам также потребуется установить FFMPEG, чтобы преобразовать выходные данные в видео.
Используйте download_weights.py, чтобы загрузить модель + декодер в локальный каталог. Используйте это следующим образом:
python3 ./scripts/download_weights.py <path_to_downloaded_directory>
Или загрузите веса напрямую с Hugging Face или с помощью magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
в папку на вашем компьютере.
Запустите пользовательский интерфейс градиента с помощью
python3 ./demos/gradio_ui.py --model_dir "<путь_к_каталогу_загрузки>"
Или создавайте видео прямо из CLI с помощью
python3 ./demos/cli.py --model_dir "<путь_к_каталогу_загрузки>"
Замените <path_to_downloaded_directory>
путем к каталогу вашей модели.
Этот репозиторий поставляется с простым составным API, поэтому вы можете вызывать модель программно. Полный пример вы можете найти здесь. Но примерно это выглядит так:
из импорта genmo.mochi_preview.pipelines ( DecoderModelFactory, DitModelFactory, MochiSingleGPUPipeline, T5ModelFactory, Linear_quadratic_schedule, )pipeline = MochiSingleGPUPipeline( text_encoder_factory=T5ModelFactory(), dit_factory=DitModelFactory( model_path=f"{MOCHI_DIR}/dit.safetensors", model_dtype="bf16" ), decoder_factory=DecoderModelFactory( model_path=f"{MOCHI_DIR}/vae.safetensors", ), cpu_offload=True, decode_type="tiled_full", )video = конвейер( высота=480, ширина=848, num_frames=31, num_inference_steps=64, sigma_schedule=linear_quadratic_schedule(64, 0,025), cfg_schedule=[4.5] * 64,atch_cfg=False, Prompt="ваша любимая подсказка здесь . ..", negegative_prompt="", семя = 12345, )
Mochi 1 представляет собой значительный прогресс в области генерации видео с открытым исходным кодом, предлагая модель диффузии с 10 миллиардами параметров, построенную на нашей новой архитектуре асимметричного диффузионного трансформатора (AsymmDiT). Созданная полностью с нуля, это крупнейшая модель генерации видео, когда-либо открыто выпущенная. И что самое приятное, это простая архитектура, которую можно взломать. Кроме того, мы выпускаем инструмент вывода, который включает в себя эффективную реализацию контекстно-параллельного анализа.
Наряду с Mochi мы открываем исходный код нашего видео AsymmVAE. Мы используем асимметричную структуру кодера-декодера для построения эффективной модели сжатия высокого качества. Наш AsymmVAE причинно сжимает видео до размера в 128 раз меньше, с пространственным сжатием 8x8 и временным сжатием 6x до 12-канального скрытого пространства.
Параметры Считать | База Энк Каналы | Декабрьская база Каналы | Скрытый Дим | Пространственный Сжатие | Временной Сжатие |
---|---|---|---|---|---|
362М | 64 | 128 | 12 | 8х8 | 6x |
AsymmDiT эффективно обрабатывает запросы пользователя вместе с токенами сжатого видео, оптимизируя обработку текста и концентрируя возможности нейронной сети на визуальном мышлении. AsymmDiT совместно обрабатывает текстовые и визуальные токены с мультимодальным самообслуживанием и изучает отдельные слои MLP для каждой модальности, аналогично Stable Diffusion 3. Однако наш визуальный поток имеет почти в 4 раза больше параметров, чем текстовый поток, через более крупный скрытый поток. измерение. Для унификации модальностей самовнимания мы используем неквадратные QKV и выходные проекционные слои. Этот асимметричный дизайн снижает требования к памяти вывода. Многие современные модели распространения используют несколько предварительно обученных языковых моделей для представления подсказок пользователю. Напротив, Mochi 1 просто кодирует подсказки с помощью одной языковой модели T5-XXL.
Параметры Считать | Число Слои | Число Руководители | Визуальный Дим | Текст Дим | Визуальный Токены | Текст Токены |
---|---|---|---|---|---|---|
10Б | 48 | 24 | 3072 | 1536 | 44520 | 256 |
Для работы модели требуется как минимум 4 графических процессора H100. Мы приветствуем вклад сообщества в снижение этого требования.
Видеомодели Genmo — это общие модели распространения текста в видео, которые по своей сути отражают предвзятости и предубеждения, обнаруженные в их обучающих данных. Несмотря на то, что были предприняты шаги по ограничению содержания NSFW, организациям следует внедрить дополнительные протоколы безопасности и тщательно продумать их перед использованием этих весов модели в любых коммерческих услугах или продуктах.
Согласно предварительному обзору исследования, Моти 1 — это живой и развивающийся контрольно-пропускной пункт. Есть несколько известных ограничений. Первоначальная версия сегодня генерирует видео с разрешением 480p. В некоторых крайних случаях с экстремальным движением также могут возникнуть незначительные деформации и искажения. Mochi 1 также оптимизирован для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом. Мы также ожидаем, что сообщество доработает модель в соответствии с различными эстетическими предпочтениями.
ComfyUI-MochiWrapper добавляет поддержку ComfyUI для Mochi. Интеграция SDPA Pytorch была взята из их репозитория.
@misc{genmo2024mochi, title={Mochi}, author={Genmo Team}, year={2024} }