Peneliti Meta AI telah mengusulkan metode bebas pelatihan yang disebut AdaCache, yang dirancang untuk mempercepat kecepatan inferensi model Transformer difusi video (DiTs). DiTs berkinerja baik di bidang pembuatan video, tetapi ukuran modelnya yang besar dan mekanisme perhatian yang kompleks menyebabkan kecepatan inferensi menjadi lambat, sehingga membatasi penerapannya. AdaCache dengan cerdik memanfaatkan fakta bahwa "tidak semua video sama" dengan menyimpan hasil penghitungan dalam cache dan menyesuaikan strategi cache untuk setiap video, sehingga secara signifikan meningkatkan efisiensi inferensi sekaligus memastikan kualitas pembuatan. Editor Downcodes akan menjelaskan teknologi ini secara detail untuk Anda.
Menghasilkan video berkualitas tinggi dan berdurasi waktu terus-menerus memerlukan sumber daya komputasi yang signifikan, terutama untuk rentang waktu yang lebih lama. Meskipun model Diffusion Transformer (DiTs) terbaru telah mencapai kemajuan signifikan dalam pembuatan video, tantangan ini diperburuk oleh inferensi yang lebih lambat karena ketergantungannya pada model yang lebih besar dan mekanisme perhatian yang lebih kompleks. Untuk mengatasi masalah ini, para peneliti di Meta AI mengusulkan metode bebas pelatihan yang disebut AdaCache untuk mempercepat video DiTs.
Ide inti AdaCache didasarkan pada fakta bahwa "tidak semua video sama", yang berarti bahwa beberapa video memerlukan lebih sedikit langkah penolakan dibandingkan video lainnya untuk mencapai kualitas yang wajar. Berdasarkan hal ini, metode ini tidak hanya menyimpan hasil perhitungan selama proses difusi, namun juga merancang strategi caching yang disesuaikan untuk setiap generasi video, sehingga memaksimalkan trade-off antara kualitas dan latensi.
Para peneliti selanjutnya memperkenalkan skema regularisasi gerakan (MoReg), yang menggunakan informasi video di AdaCache untuk mengontrol alokasi sumber daya komputasi berdasarkan konten gerakan. Karena urutan video yang berisi tekstur frekuensi tinggi dan konten gerakan dalam jumlah besar memerlukan lebih banyak langkah difusi untuk mencapai kualitas yang wajar, MoReg dapat mengalokasikan sumber daya komputasi dengan lebih baik.
Hasil eksperimen menunjukkan bahwa AdaCache dapat meningkatkan kecepatan inferensi secara signifikan (misalnya, kecepatan hingga 4,7x pada pembuatan video Open-Sora720p-2s) tanpa mengorbankan kualitas pembuatan. Selain itu, AdaCache juga memiliki kemampuan generalisasi yang baik dan dapat diterapkan pada berbagai model video DiT, seperti Open-Sora, Open-Sora-Plan, dan Latte. AdaCache menawarkan keunggulan signifikan dalam kecepatan dan kualitas dibandingkan metode akselerasi bebas pelatihan lainnya seperti Δ-DiT, T-GATE, dan PAB.
Studi pengguna menunjukkan bahwa pengguna lebih memilih video yang dihasilkan AdaCache dibandingkan metode lain dan menganggap kualitasnya sebanding dengan model dasar. Studi ini menegaskan efektivitas AdaCache dan memberikan kontribusi penting dalam bidang pembuatan video yang efisien. Meta AI percaya bahwa AdaCache dapat digunakan secara luas dan mempromosikan mempopulerkan pembuatan video panjang dengan fidelitas tinggi.
Makalah: https://arxiv.org/abs/2411.02397
Halaman beranda proyek:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache
Secara keseluruhan, AdaCache menyediakan metode baru dan efektif untuk pembuatan video yang efisien, dan peningkatan kinerja yang signifikan serta pengalaman pengguna yang baik menjadikannya sangat potensial untuk aplikasi masa depan. Editor Downcodes percaya bahwa kemunculan AdaCache akan mendorong pengembangan lebih lanjut pembuatan video panjang dengan fidelitas tinggi.