Эффективно генерирование высококачественных длинных видеороликов всегда было серьезной проблемой в области компьютерного зрения. Исследователи Meta AI предложили метод ускорения без обучения, называемый Adacache в ответ на медленный вывод существующих моделей диффузионных трансформаторов (DIT). Adacache Cleverly использует различия в видеоконтенте, настраивает стратегии кэширования для каждого видео и вводит схему регуляризации движения для динамического распределения вычислительных ресурсов на основе содержимого движения видео, тем самым значительно улучшая скорость вывода при обеспечении качества генерации.
Для получения высококачественного, непрерывного видео требуется много вычислительных ресурсов, особенно для более длительных промежутков. Хотя последние модели диффузионных трансформаторов (DIT) добились значительного прогресса в генерации видео, эта задача усугубляется более медленными рассуждениями из -за их зависимости от более крупных моделей и более сложных механизмов внимания. Чтобы решить эту проблему, исследователи из Meta AI предложили метод без обучения, который называется Adacache для ускорения видеоколовей.
Основная идея Adacache основана на том факте, что «не все видео одинаковы», что означает, что некоторые видео требуют меньше шагов для разоблачения, чем другие для достижения разумного качества. Основываясь на этом, метод не только кэширует результаты расчета во время диффузионного процесса, но и разрабатывает настраиваемую стратегию кэша для каждой генерации видео, тем самым максимизируя компромисс между качеством и задержкой.
Исследователи также представили схему регуляризации движения (MOREG), которая использует видео информацию в Adacache для управления распределением вычислительных ресурсов на основе содержания движения. Поскольку видео последовательности, содержащие высокочастотные текстуры и большие объемы содержания движения, требуют большего количества диффузионных этапов для достижения разумного качества, больше, может лучше выделить вычислительные ресурсы.
Экспериментальные результаты показывают, что Adacache может значительно улучшить скорость вывода (например, в 4,7 раза быстрее в генерации видео с открытым сора 720p -2) без жертвы качества поколения. Кроме того, Adacache обладает хорошими возможностями обобщения и может быть применен к различным моделям видео DIT, таким как открытый сор, открытый сосу и латте. Adacache имеет значительные преимущества как в скорости, так и в качестве по сравнению с другими методами ускорения без обучения, такими как ∆-DIT, T-Gate и PAB.
Пользовательские исследования показывают, что пользователи предпочитают, сгенерированные Adacache видео по сравнению с другими методами, и считают, что их качество сопоставимо с эталонной моделью. Это исследование подтверждает эффективность Adacache и вносит важный вклад в область эффективной генерации видео. Meta AI считает, что Adacache может быть широко использован и способствовать популяризации высококачественной длинной генерации видео.
Бумага: https://arxiv.org/abs/2411.02397
Домашняя страница проекта:
https://adacache-dit.github.io/
GitHub:
https://github.com/adacache-dit/adacache
Короче говоря, Adacache, как эффективный метод ускорения генерации видео, предоставляет новые возможности для генерации высококачественных длинных видеороликов, а его значительное улучшение производительности и хороший пользовательский опыт заставляют его иметь широкие перспективы в будущих приложениях. Это исследование Meta AI привело к важным прорывам в области эффективной генерации видео.