Технология генерации видео достигла значительного прогресса в последние годы, но существующие модели по -прежнему имеют ограничения при захвате сложных движений и физических явлений. Исследовательская команда Meta предложила видеозамную структуру, направленную на повышение ясности моделей генерации видео посредством совместного представления появления.
В области генерации видео, несмотря на значительный прогресс в последние годы, существующие генеративные модели все еще пытаются захватить сложные движения, динамические и физические явления в реальности. Это ограничение связано в основном из традиционных целей реконструкции пикселей, которые имеют тенденцию улучшать реализм внешнего вида и игнорировать последовательность движения.
Чтобы решить эту проблему, исследовательская команда Meta предложила новую структуру под названием VideoJam, которая направлена на то, чтобы внедрить эффективные априоры движения в модели, сгенерирующие видео, поощряя модели для изучения совместных представлений о появлении.
Структура VideoJam содержит два дополнительных единица. На этапе обучения структура расширяет цель прогнозирования как сгенерированных пикселей, так и соответствующего движения, как из одного представления обучения.
На этапе рассуждения исследовательская группа представила механизм, называемый «внутренним руководством», который направляет процесс генерации к последовательному направлению движения, используя собственное развивающее прогнозирование движения модели в качестве динамического сигнала руководства. Стоит отметить, что VideoJam может быть применен к любой модели генерации видео без изменения учебных данных или расширения модели.
Видеоджам оказался лидирующим в отрасли уровнем последовательности движения, превосходя несколько высококонкурентных проприетарных моделей, а также улучшает визуальное качество генерируемых изображений. Это результаты исследования подчеркивают взаимодополняющую связь между внешним видом и движением, что может значительно улучшить визуальный эффект и когерентность генерации видео, когда они эффективно объединены.
Кроме того, исследовательская группа продемонстрировала отличную производительность видеоджам-30B в генерации сложных спортивных типов, включая сцены, такие как скейтбордисты, прыгающие и балетные танцоры, вращающиеся на озере. Сравнивая модель Bibase DIT-30B, исследование показало, что VideoJam значительно улучшил качество генерации движения.
Вход в проект: https://hila-chefer.github.io/videojam-paper.github.io/
Ключевые моменты:
VideoJam Framework повышает выражение движения моделей генерации видео посредством совместного представления движения.
Во время обучения видеоджам может предсказать пиксели и движение одновременно, повышая последовательность сгенерированного контента.
Было доказано, что Videojam превосходит несколько конкурентных моделей как в последовательности движения, так и в качеством зрения.
Meta's Videojam Framework принесла новые прорывы в технологии генерации видео.