Los investigadores de Meta AI han propuesto un método sin entrenamiento llamado AdaCache, diseñado para acelerar la velocidad de inferencia de los modelos Transformer (DiT) de difusión de video. DiTs funciona bien en el campo de la generación de video, pero su gran tamaño de modelo y su complejo mecanismo de atención conducen a una velocidad de inferencia lenta, lo que limita su aplicación. AdaCache aprovecha inteligentemente el hecho de que "no todos los videos son iguales" almacenando en caché los resultados del cálculo y personalizando la estrategia de almacenamiento en caché para cada video, lo que mejora significativamente la eficiencia de la inferencia y garantiza la calidad de la generación. El editor de Downcodes te explicará esta tecnología en detalle.
Generar videos continuos en el tiempo de alta calidad requiere importantes recursos computacionales, especialmente para períodos de tiempo más largos. Aunque los últimos modelos de transformadores de difusión (DiT) han logrado avances significativos en la generación de vídeo, este desafío se ve exacerbado por una inferencia más lenta debido a su dependencia de modelos más grandes y mecanismos de atención más complejos. Para resolver este problema, los investigadores de Meta AI propusieron un método sin entrenamiento llamado AdaCache para acelerar los DiT de video.
La idea central de AdaCache se basa en el hecho de que "no todos los vídeos son iguales", lo que significa que algunos vídeos requieren menos pasos de eliminación de ruido que otros para lograr una calidad razonable. En base a esto, este método no solo almacena en caché los resultados del cálculo durante el proceso de difusión, sino que también diseña una estrategia de almacenamiento en caché personalizada para cada generación de video, maximizando así el equilibrio entre calidad y latencia.
Además, los investigadores introdujeron un esquema de regularización de movimiento (MoReg), que utiliza información de video en AdaCache para controlar la asignación de recursos informáticos de acuerdo con el contenido de movimiento. Dado que las secuencias de vídeo que contienen texturas de alta frecuencia y grandes cantidades de contenido en movimiento requieren más pasos de difusión para lograr una calidad razonable, MoReg puede asignar mejor los recursos computacionales.
Los resultados experimentales muestran que AdaCache puede mejorar significativamente la velocidad de inferencia (por ejemplo, hasta 4,7 veces la velocidad en la generación de video Open-Sora720p-2) sin sacrificar la calidad de la generación. Además, AdaCache también tiene una buena capacidad de generalización y se puede aplicar a diferentes modelos de vídeo DiT, como Open-Sora, Open-Sora-Plan y Latte. AdaCache ofrece importantes ventajas tanto en velocidad como en calidad en comparación con otros métodos de aceleración sin entrenamiento como Δ-DiT, T-GATE y PAB.
Los estudios de usuarios muestran que los usuarios prefieren los videos generados con AdaCache a otros métodos y consideran que su calidad es comparable a la de los modelos básicos. Este estudio confirma la eficacia de AdaCache y hace una contribución importante al campo de la generación de vídeo eficiente. Meta AI cree que AdaCache puede usarse ampliamente y promover la popularización de la generación de videos largos de alta fidelidad.
Documento: https://arxiv.org/abs/2411.02397
Página de inicio del proyecto:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache
En definitiva, AdaCache proporciona un método novedoso y eficaz para la generación de vídeo eficiente, y su importante mejora del rendimiento y la buena experiencia del usuario lo convierten en un gran potencial para aplicaciones futuras. El editor de Downcodes cree que la aparición de AdaCache promoverá un mayor desarrollo de la generación de vídeos largos de alta fidelidad.