Исследователи Meta AI предложили метод, не требующий обучения, под названием AdaCache, предназначенный для ускорения скорости вывода моделей трансформаторов диффузии видео (DiT). DiTs хорошо работает в области генерации видео, но большой размер модели и сложный механизм внимания приводят к медленной скорости вывода, что ограничивает его применение. AdaCache умело использует тот факт, что «не все видео одинаковы», кэшируя результаты вычислений и настраивая стратегию кэширования для каждого видео, что значительно повышает эффективность вывода, обеспечивая при этом качество генерации. Редактор Downcodes подробно объяснит вам эту технологию.
Создание высококачественных непрерывных видео требует значительных вычислительных ресурсов, особенно для более длительных промежутков времени. Хотя последние модели диффузионных преобразователей (DiT) добились значительного прогресса в создании видео, эта проблема усугубляется более медленным выводом из-за их зависимости от более крупных моделей и более сложных механизмов внимания. Чтобы решить эту проблему, исследователи из Meta AI предложили не требующий обучения метод под названием AdaCache для ускорения видео DiT.
Основная идея AdaCache основана на том факте, что «не все видео одинаковы», а это означает, что для достижения приемлемого качества некоторым видео требуется меньше шагов шумоподавления, чем другим. Основываясь на этом, этот метод не только кэширует результаты вычислений во время процесса распространения, но также разрабатывает индивидуальную стратегию кэширования для каждого поколения видео, тем самым максимизируя компромисс между качеством и задержкой.
Исследователи также представили схему регуляризации движения (MoReg), которая использует видеоинформацию в AdaCache для управления распределением вычислительных ресурсов в соответствии с движущимся контентом. Поскольку видеопоследовательности, содержащие высокочастотные текстуры и большое количество движущегося контента, требуют большего количества шагов диффузии для достижения приемлемого качества, MoReg может лучше распределять вычислительные ресурсы.
Результаты экспериментов показывают, что AdaCache может значительно повысить скорость вывода (например, ускорение до 4,7 раз при генерации видео Open-Sora720p-2s) без ущерба для качества генерации. Кроме того, AdaCache также обладает хорошей способностью к обобщению и может применяться к различным моделям видео DiT, таким как Open-Sora, Open-Sora-Plan и Latte. AdaCache предлагает значительные преимущества как по скорости, так и по качеству по сравнению с другими методами ускорения без обучения, такими как Δ-DiT, T-GATE и PAB.
Исследования пользователей показывают, что пользователи предпочитают видео, созданные с помощью AdaCache, другим методам и считают их качество сопоставимым с базовыми моделями. Это исследование подтверждает эффективность AdaCache и вносит важный вклад в область эффективной генерации видео. Meta AI считает, что AdaCache может широко использоваться и способствовать популяризации генерации длинных видео высокой точности.
Статья: https://arxiv.org/abs/2411.02397.
Домашняя страница проекта:
https://adacache-dit.github.io/
Гитхаб:
https://github.com/AdaCache-DiT/AdaCache
В целом, AdaCache предоставляет новый и эффективный метод эффективной генерации видео, а его значительное улучшение производительности и удобство для пользователя делают его весьма перспективным для будущих приложений. Редактор Downcodes считает, что появление AdaCache будет способствовать дальнейшему развитию генерации длинного видео высокой точности.