Редактор Downcodes узнал, что в области генерации видео достигнут значительный прогресс! Genmo открыла исходный код своей последней модели генерации видео Mochi1, которая имеет 10 миллиардов параметров и является крупнейшей моделью генерации видео, выпущенной в настоящее время публично. Mochi1 использует инновационную архитектуру асимметричного диффузионного трансформатора (AsymmDiT), которая проста и легко модифицируется, что обеспечивает большое удобство разработчикам сообщества с открытым исходным кодом и может генерировать высококачественные видеоролики длиной до 5,4 секунды и с частотой кадров до 30. кадров/секунду.
В области генерации видео произошел крупный прорыв! Genmo открыла исходный код своей последней модели генерации видео Mochi1, установив новый стандарт в области генерации видео. Mochi1 использует инновационную архитектуру асимметричного диффузионного трансформатора (AsymmDiT) и имеет до 10 миллиардов параметров, что делает его крупнейшей моделью генерации видео, публично выпущенной на сегодняшний день.
Что еще более важно, он обучается полностью с нуля и имеет простую и модифицируемую архитектуру, что обеспечивает большое удобство разработчикам из сообщества открытого исходного кода.
Самым большим преимуществом Mochi1 является превосходное качество движения и точное соответствие текстовым подсказкам. Он способен генерировать плавные видеоролики длиной до 5,4 секунды с частотой кадров до 30 кадров в секунду, с потрясающей временной когерентностью и реалистичной динамикой движения.
Mochi1 также может моделировать различные физические явления, такие как гидродинамика, моделирование волос и т. д. Создаваемые им персонажи имеют естественные и плавные движения, почти сравнимые с реальными выступлениями.
Чтобы облегчить разработчикам использование, Genmo также открыла исходный код своего видео VAE, которое может сжимать видео до 1/128 исходного размера, эффективно уменьшая объем вычислений и требования к памяти модели.
Архитектура AsymmDiT эффективно обрабатывает пользовательские подсказки и теги сжатого видео с помощью многомодального механизма самообслуживания, а также изучает отдельные уровни MLP для каждой модальности, что еще больше повышает эффективность и производительность модели.
Выпуск Mochi1 знаменует собой важный шаг в области создания видео с открытым исходным кодом. Компания Genmo заявила, что выпустит полную версию Mochi1 до конца года, включая Mochi1HD, поддерживающую генерацию видео 720p, и к этому времени точность и плавность видео будут еще больше улучшены.
Чтобы больше людей могли испытать мощные функции Mochi1, Genmo также запустила бесплатную игровую площадку, которую пользователи могут использовать по адресу genmo.ai/play. Вес и архитектура Mochi1 также были опубликованы на платформе HuggingFace, чтобы разработчики могли их загрузить и использовать.
В состав Genmo входят основные участники таких проектов, как DDPM, DreamFusion и Emu Video, а в ее консультативную группу входят Ион Стойка, исполнительный председатель и соучредитель Databricks и Anyscale, соучредитель Covariant и один из первых членов команды OpenAI; и лидеры отрасли систем языковых моделей, такие как Джои Гонсалес, пионер и соучредитель Turi.
Миссия Genmo — раскрыть правое полушарие общего искусственного интеллекта, а Mochi1 — это первый шаг в создании симулятора мира, который может представить все, возможное или невозможное.
Genmo недавно завершила раунд финансирования серии A под руководством NEA на общую сумму 28,4 миллиона долларов США, что обеспечит достаточную финансовую поддержку для их будущих исследований и разработок.
Хотя Mochi1 добился впечатляющих результатов, у него все еще есть некоторые ограничения. Например, первоначальная версия в настоящее время может воспроизводить только видео 480p с небольшими искажениями и искажениями в некоторых крайних случаях экстремального движения. Кроме того, Mochi1 в настоящее время оптимизирован для фотореалистичного стиля, и его производительность при работе с анимационным контентом нуждается в улучшении.
Genmo заявляет, что продолжит совершенствовать Mochi1, и призывает сообщество точно настроить модель в соответствии с различными эстетическими предпочтениями. В то же время они также внедрили строгие протоколы проверки безопасности на своих игровых площадках, чтобы гарантировать, что создание видео является этичным.
Скачать модель: https://huggingface.co/genmo/mochi-1-preview
Онлайн-опыт: https://www.genmo.ai/play
Официальное введение: https://www.genmo.ai/blog
Открытый исходный код Mochi1 открывает новые возможности в области создания видео, а его мощные функции и удобное использование заслуживают ожидания. Постоянные усилия Genmo и активное участие сообщества будут способствовать дальнейшему развитию технологий генерации видео. С нетерпением ждем появления Mochi1HD и появления новых инновационных достижений.