Это работающая версия модели txt2video от Genmoai, оптимизированная для работы на одном узле графического процессора с уменьшенной видеопамятью.
Он вполне способен работать с 48 ГБ, но теперь он должен работать с одним графическим процессором на 24 ГБ.
Не превышайте 61 кадр и попробуйте 640x480. Использование VRAM в основном зависит от количества кадров и разрешения. Шаги вывода не должны влиять на использование видеопамяти, но время, затрачиваемое на создание видео, масштабируется с шагом. 100 шагов кажутся нормальными и, скорее всего, займут 15–25 минут. В исходном источнике использовано 200 шагов, но это займет примерно вдвое больше времени.
Windows еще не проверял, но наверное может работать? ¯ (ツ) /¯
Если ваша система уже использует VRAM для запуска рабочего стола, вам может потребоваться еще больше снизить настройки.
В основном просто перемещаю vae, te, dit и т. д. туда и обратно на процессор, когда это не нужно, и везде использую bfloat16. Это может потребовать значительного объема системной оперативной памяти (~ 64 ГБ) или может быть очень медленным, если придется вернуться к использованию файла подкачки, если системная оперативная память <= 32 ГБ, поскольку T5 и DIT все еще довольно велики. Время на перемещение моделей вперед и назад довольно мало по сравнению со временем вывода, затраченным на этапы DIT.
Дальнейшая оптимизация... Может быть, биты и байты NF4. Это может уменьшить его до 16 ГБ или меньше, при условии, что это не ухудшит качество вывода. Могу попытаться посмотреть, смогу ли я вставить изображение первого кадра, чтобы оно выполняло img2video.
Блог | Обнимающее лицо | Детская площадка | Карьера
Современная модель генерации видео от Genmo.
Предварительный просмотр Mochi 1 — это открытая современная модель создания видео с высокой точностью воспроизведения движений и строгим соблюдением требований при предварительной оценке. Эта модель резко сокращает разрыв между закрытыми и открытыми системами генерации видео. Мы выпускаем модель под разрешительной лицензией Apache 2.0. Попробуйте эту модель бесплатно на нашей игровой площадке.
Установить с помощью УФ:
git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .
Загрузите гири с Hugging Face или с помощью magnet:?xt=urn:btih:441da1af7a16bcaa4f556964f8028d7113d21cbb&dn=weights&tr=udp://tracker.opentrackr.org:1337/announce
в папку на своем компьютере.
Запустите пользовательский интерфейс градиента с помощью
python3 -m mochi_preview.gradio_ui --model_dir " "
Или создавайте видео прямо из CLI с помощью
python3 -m mochi_preview.infer --prompt " A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere. " --seed 1710977262 --cfg-scale 4.5 --model_dir " "
Замените
путем к каталогу вашей модели.
Mochi 1 представляет собой значительный прогресс в создании видео с открытым исходным кодом, предлагая модель диффузии с 10 миллиардами параметров, построенную на нашей новой архитектуре асимметричного диффузионного трансформатора (AsymmDiT). Созданная полностью с нуля, это крупнейшая модель генерации видео, когда-либо выпущенная открыто. И что самое приятное, это простая архитектура, которую можно взломать. Кроме того, мы выпускаем инструмент вывода, который включает в себя эффективную реализацию контекстно-параллельного анализа.
Наряду с Mochi мы открываем исходный код нашего видео AsymmVAE. Мы используем асимметричную структуру кодировщика-декодера для построения эффективной модели сжатия высокого качества. Наш AsymmVAE причинно сжимает видео до размера в 128 раз меньше, с пространственным сжатием 8x8 и временным сжатием 6x до 12-канального скрытого пространства.
Параметры Считать | База Энк Каналы | Декабрьская база Каналы | Скрытый Дим | Пространственный Сжатие | Временной Сжатие |
---|---|---|---|---|---|
362М | 64 | 128 | 12 | 8х8 | 6x |
AsymmDiT эффективно обрабатывает запросы пользователя вместе с токенами сжатого видео, оптимизируя обработку текста и концентрируя возможности нейронной сети на визуальном мышлении. AsymmDiT совместно обрабатывает текстовые и визуальные токены с мультимодальным самообслуживанием и изучает отдельные слои MLP для каждой модальности, аналогично Stable Diffusion 3. Однако наш визуальный поток имеет почти в 4 раза больше параметров, чем текстовый поток, через более крупный скрытый поток. измерение. Чтобы унифицировать модальности самовнимания, мы используем неквадратные QKV и выходные проекционные слои. Этот асимметричный дизайн снижает требования к памяти вывода. Многие современные модели распространения используют несколько предварительно обученных языковых моделей для представления подсказок пользователю. Напротив, Mochi 1 просто кодирует подсказки с помощью одной языковой модели T5-XXL.
Параметры Считать | Число Слои | Число Руководители | Визуальный Дим | Текст Дим | Визуальный Токены | Текст Токены |
---|---|---|---|---|---|---|
10Б | 48 | 24 | 3072 | 1536 | 44520 | 256 |
Для работы модели требуется как минимум 4 графических процессора H100. Мы приветствуем вклад сообщества в снижение этого требования.
Видеомодели Genmo — это общие модели распространения текста в видео, которые по своей сути отражают предвзятости и предубеждения, обнаруженные в их обучающих данных. Несмотря на то, что были предприняты шаги по ограничению содержания NSFW, организациям следует внедрить дополнительные протоколы безопасности и тщательно продумать их перед использованием этих весов моделей в любых коммерческих услугах или продуктах.
Согласно предварительному обзору исследования, Моти 1 — это живой и развивающийся контрольно-пропускной пункт. Есть несколько известных ограничений. Первоначальная версия сегодня генерирует видео с разрешением 480p. В некоторых крайних случаях с экстремальным движением также могут возникнуть незначительные деформации и искажения. Mochi 1 также оптимизирован для фотореалистичных стилей, поэтому не очень хорошо работает с анимированным контентом. Мы также ожидаем, что сообщество доработает модель в соответствии с различными эстетическими предпочтениями.
@misc{genmo2024mochi,
title={Mochi},
author={Genmo Team},
year={2024}
}