Meta сотрудничает с технологическим университетом короля Абдулла (Kaust) в Саудовской Аравии, чтобы запустить новую серию моделей диффузии видео под названием Mardini. Эта модель может эффективно выполнять различные задачи генерации видео, включая интерполяцию видео, преобразование изображения в Video и расширение видео, значительно упрощая процесс создания высококачественного видео. Mardini использует комбинацию моделей планирования и генеративных моделей для генерации высококачественных видео с меньшим количеством шагов с помощью методов Autoregression (MAR) Mask (MAR) и диффузионных процессов, демонстрируя значительные преимущества в производительности и эффективности, предоставляя создателям видео мощных инструментов и устанавливают новые отраслевые цифры.
在去年的基础上,Meta 在生成AI 视频领域进一步发力。 Ранее он запускал модели текста к Video и редактирование, таких как EMU Video и EMU Edit. В этом году также был запущен Advanced Video Editor Movie Gen. Это показывает, что Meta стремится предоставить создателям видео более мощные инструменты.
Сила Mardini заключается в том, что он может генерировать видео на основе любого количества маскированных рам, и поддерживает различные задачи генерации, такие как интерполяция видео, преобразование изображения в Video и расширение видео.
Изображение к видео результатыСреди них основным применением Мардини является генерация изображения к Video. Эта функция демонстрируется с использованием эталонной кадра, размещенной в середине в качестве условного ввода, и генерируя 16 дополнительных кадров. В официальном примере, сгенерированном видео, 17 кадров, отображаемых на 8 кадров в секунду, могут быть получены для плавного 2-секундного видео.
Результаты расширения видеоMardini также позволяет вам расширить ваше видео, настраивая существующие видео на любой момент времени. Мы добавляем 12 новых кадров в каждую последовательность, генерируя 2-секундное расширение из эталонного видео с 5 рамой.
Результаты интерполяции видеоMardini реализует интерполяцию видео, генерируя промежуточные рамки, используя первые и последние кадры в качестве сигналов регулировки. Когда эти граничные рамки одинаковы, Mardini может создавать беспроблемные видеоролики.
Как работает Мардини, очень интересно. Он принимает передовую и эффективную технологию генерации видео, в основном состоит из двух частей: модель планирования и генеративной модели. Во-первых, модель планирования использует метод Mask Autoregression (MAR) для интерпретации входных кадров с низким разрешением, генерируя сигналы наведения для создания кадров, которые необходимо создать. Легкая генеративная модель затем генерирует подробные кадры с высоким разрешением через процесс диффузии, гарантируя, что конечное видео является гладким и визуально хорошим.
В отличие от многих видео-моделей, которые требуют сложных предварительно обученных моделей изображений, Mardini утверждает, что они обучены с нуля с использованием немеченых видеодантеров. Это связано с тем, что он принимает прогрессивную стратегию обучения, которая позволяет модели лучше справляться с различными конфигурациями кадров, гибкой настройки метода маскирования кадров во время обучения.
Отличительной особенностью Mardini является его гибкость и производительность. Он не только мощный, но и эффективный, подходит для более крупных задач. Эта модель может выполнять различные задачи, такие как интерполяция видео, генерация изображения в Video и расширение видео, будь то сглаживание существующих видеоклипов или создание полной последовательности с нуля.
С точки зрения производительности, Mardini устанавливает новые критерии для создания высококачественного видео с меньшим количеством шагов, что делает его более затратным и временным, чем более сложные альтернативы. «Наше исследование показывает, что наша стратегия моделирования демонстрирует конкурентоспособность в различных контрольных показателях интерполяции и анимации, одновременно снижая вычислительный спрос в сопоставимых масштабах параметров», - отмечается официальный исследовательский документ.
项目入口:https://mardini-vidgen.github.io/
Ключевые моменты:
MarDini 是Meta 与KAUST 合作推出的新一代视频生成模型,能够轻松完成多种视频创作任务。
该模型通过规划和生成模型的结合,实现了高效的视频插值和图像转视频生成。
MarDini 以较少的步骤生成高质量视频,显著提升了创作的灵活性与效率。
Короче говоря, появление Mardini знаменует собой значительный прогресс в технологии генерации видео, с ее эффективными показателями и гибкими сценариями применения, которые приносят новые возможности для создания видео. В будущем Mardini может играть большую роль в производстве кино, производства анимации и других областях, которые требуют генерации видео.