Universitas Peking berkolaborasi dengan tim Kuaishou AI untuk mengembangkan kerangka kerja pembuatan video baru yang disebut VideoTetris, yang berhasil memecahkan masalah pembuatan video yang kompleks, dan kinerjanya melampaui model komersial seperti Pika dan Gen-2. Kerangka kerja ini secara inovatif mendefinisikan tugas-tugas pembuatan video gabungan, dapat secara akurat menghasilkan video sesuai dengan instruksi yang kompleks, dan mendukung pembuatan video panjang dan instruksi multi-objek progresif, secara efektif memecahkan kekurangan model yang ada dalam memproses instruksi dan detail yang kompleks, seperti menemukan lokasi beberapa objek secara akurat objek dan mempertahankan detail karakteristiknya.
Berita dari ChinaZ.com pada 17 Juni: Universitas Peking dan tim Kuaishou AI berkolaborasi untuk berhasil mengatasi masalah pembuatan video yang kompleks. Mereka mengusulkan kerangka kerja baru yang disebut VideoTetris, yang dapat dengan mudah menggabungkan berbagai detail seperti teka-teki untuk menghasilkan video dengan kesulitan tinggi dan instruksi kompleks. Kerangka kerja ini melampaui model komersial seperti Pika dan Gen-2 dalam tugas pembuatan video yang kompleks.
Kerangka kerja VideoTetris mendefinisikan tugas pembuatan video gabungan untuk pertama kalinya, termasuk dua subtugas: 1) pembuatan video mengikuti instruksi kombinasi kompleks; 2) pembuatan video panjang mengikuti instruksi multi-objek gabungan progresif. Tim menemukan bahwa hampir semua model open source dan komersial yang ada gagal menghasilkan video yang benar. Misalnya, jika Anda memasukkan "anjing coklat lucu di sebelah kiri dan kucing yang sedang tidur siang di bawah sinar matahari di sebelah kanan", video yang dihasilkan sering kali menggabungkan informasi tentang kedua objek tersebut, sehingga terlihat aneh.
Sebaliknya, VideoTetris berhasil menyimpan semua informasi lokasi dan fitur detail. Dalam pembuatan video berdurasi panjang, ini mendukung instruksi yang lebih kompleks, seperti "Transisi dari tupai coklat lucu di atas tumpukan hazelnut ke tupai coklat lucu dan tupai putih lucu di atas tumpukan hazelnut." Urutan video yang dihasilkan konsisten dengan instruksi masukan, dan kedua tupai secara alami dapat bertukar makanan.
Kerangka VideoTetris mengadopsi metode difusi gabungan spatiotemporal. Pertama-tama, ia mendekonstruksi perintah teks berdasarkan waktu dan memberikan informasi cepat yang berbeda ke bingkai video yang berbeda. Kemudian dimensi spasial didekonstruksi pada setiap frame untuk memetakan objek yang berbeda ke area video yang berbeda. Akhirnya, pembangkitan instruksi kombinasi yang efisien dicapai melalui perhatian silang spatio-temporal.
Untuk menghasilkan video berdurasi panjang dengan kualitas lebih tinggi, tim juga mengusulkan metode pra-pemrosesan data pelatihan yang ditingkatkan untuk membuat pembuatan video berdurasi panjang menjadi lebih dinamis dan stabil. Selain itu, mekanisme perhatian bingkai referensi diperkenalkan, dan VAE asli digunakan untuk menyandikan informasi bingkai sebelumnya, yang berbeda dari model lain yang menggunakan pengkodean CLIP, sehingga mencapai konsistensi konten yang lebih baik.
Hasil pengoptimalannya adalah video berdurasi panjang tidak lagi memiliki corak warna area yang luas, dapat beradaptasi dengan lebih baik terhadap instruksi yang rumit, dan video yang dihasilkan lebih dinamis dan natural. Tim juga memperkenalkan indikator evaluasi baru VBLIP-VQA dan VUnidet, yang memperluas metode evaluasi generasi gabungan ke dimensi video untuk pertama kalinya.
Uji eksperimental menunjukkan bahwa dalam hal kemampuan gabungan pembuatan video, model VideoTetris mengungguli semua model sumber terbuka, bahkan model komersial seperti Gen-2 dan Pika. Dilaporkan bahwa kode tersebut akan sepenuhnya open source.
Alamat proyek: https://top.aibase.com/tool/videotetris
Secara keseluruhan, kerangka VideoTetris telah membuat terobosan signifikan di bidang pembuatan video yang kompleks, dan metode difusi kombinasi spatiotemporal yang efisien serta indikator evaluasi inovatif memberikan arah baru bagi pengembangan teknologi pembuatan video di masa depan. Sumber terbuka dari proyek ini juga menyediakan sumber daya berharga bagi lebih banyak peneliti dan mendorong pengembangan lebih lanjut di bidang ini. Kami berharap VideoTetris dapat berperan dalam lebih banyak skenario aplikasi di masa depan.