Meta meluncurkan generasi baru model generasi video mardini, untuk menyelesaikan tugas mengisi bingkai video yang hilang - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-11 02:00:02

Meta telah bermitra dengan King Abdullah University of Technology (KAUST) di Arab Saudi untuk meluncurkan serangkaian model difusi video baru yang disebut Mardini. Model ini dapat secara efisien menyelesaikan berbagai tugas pembuatan video, termasuk interpolasi video, konversi gambar-ke-video dan ekspansi video, sangat menyederhanakan proses pembuatan video berkualitas tinggi. Mardini menggunakan kombinasi model perencanaan dan model generatif untuk menghasilkan video berkualitas tinggi dengan lebih sedikit langkah melalui metode mask autoregresi (MAR) dan proses difusi, menunjukkan keunggulan yang signifikan dalam kinerja dan efisiensi, memberikan alat video yang kuat dan menetapkan tolok ukur industri baru.

Berdasarkan tahun lalu, Meta lebih lanjut melakukan upaya di bidang menghasilkan video AI. Sebelumnya, ia meluncurkan model teks-ke-video dan pengeditan seperti EMU Video dan EMU Edit. Tahun ini, Gen Film Editor Video Lanjutan juga diluncurkan. Ini menunjukkan bahwa Meta berkomitmen untuk memberikan alat video yang lebih kuat kepada pembuat video.

Kekuatan Mardini adalah bahwa ia dapat menghasilkan video berdasarkan sejumlah frame bertopeng, dan mendukung berbagai tugas pembuatan, seperti interpolasi video, konversi gambar-ke-video, dan ekspansi video.

Gambar ke Hasil Video

Di antara mereka, aplikasi utama Mardini adalah pembuatan gambar-ke-video. Fitur ini ditunjukkan dengan menggunakan bingkai referensi yang ditempatkan di tengah sebagai input bersyarat dan menghasilkan 16 frame tambahan. Dalam contoh video yang dihasilkan resmi, 17 frame yang diberikan pada 8FPS dapat dihasilkan untuk video 2 detik yang halus.

Hasil ekstensi video

Mardini juga memungkinkan Anda untuk memperluas video Anda dengan menyesuaikan video yang ada untuk waktu yang lama. Kami menambahkan 12 frame baru untuk setiap urutan dengan menghasilkan ekstensi 2 detik dari video referensi 5-frame.

Hasil interpolasi video

Mardini mengimplementasikan interpolasi video dengan menghasilkan frame perantara menggunakan frame pertama dan terakhir sebagai sinyal penyesuaian. Ketika bingkai batas ini sama, Mardini dapat membuat video perulangan yang mulus.

Bagaimana cara kerja Mardini sangat menarik. Ini mengadopsi teknologi pembuatan video yang canggih dan efisien, terutama terdiri dari dua bagian: model perencanaan dan model generatif. Pertama, model perencanaan menggunakan metode mask autoregresi (MAR) untuk menafsirkan frame input resolusi rendah, menghasilkan sinyal panduan untuk bingkai yang perlu dibuat. Model generatif yang ringan kemudian menghasilkan bingkai terperinci resolusi tinggi melalui proses difusi, memastikan bahwa video final halus dan baik secara visual.

Tidak seperti banyak model video yang membutuhkan model gambar pra-terlatih yang kompleks, Mardini mengklaim dilatih dari awal menggunakan data video yang tidak berlabel. Ini karena ia mengadopsi strategi pelatihan progresif, yang memungkinkan model untuk mengatasi konfigurasi bingkai yang lebih baik dengan secara fleksibel menyesuaikan metode masking frame selama pelatihan.

Fitur khas Mardini adalah fleksibilitas dan kinerjanya. Ini tidak hanya kuat tetapi juga efisien, cocok untuk tugas yang lebih besar. Model ini dapat menangani berbagai tugas seperti interpolasi video, pembuatan gambar-ke-video, dan ekspansi video, apakah itu menghaluskan klip video yang ada atau membuat urutan lengkap dari awal.

Dalam hal kinerja, Mardini menetapkan tolok ukur baru untuk menghasilkan video berkualitas tinggi dengan lebih sedikit langkah, yang membuatnya lebih bijaksana dan waktu daripada alternatif yang lebih kompleks. "Penelitian kami menunjukkan bahwa strategi pemodelan kami menunjukkan daya saing dalam berbagai tolok ukur interpolasi dan animasi, sambil mengurangi permintaan komputasi pada skala parameter yang sebanding," kata makalah penelitian resmi.

Pintu Masuk Proyek: https://mardini-vidgen.github.io/

Poin -Poin Kunci:

Mardini adalah model generasi video generasi baru yang diluncurkan oleh Meta dan Kaust, yang dapat dengan mudah menyelesaikan berbagai tugas pembuatan video.

Model ini mencapai interpolasi video yang efisien dan pembuatan gambar-ke-video melalui kombinasi model perencanaan dan generasi.

Mardini menghasilkan video berkualitas tinggi dengan langkah-langkah yang lebih sedikit, secara signifikan meningkatkan fleksibilitas dan efisiensi penciptaan.

Singkatnya, kemunculan Mardini menandai kemajuan yang signifikan dalam teknologi pembuatan video, dengan kinerja yang efisien dan skenario aplikasi yang fleksibel membawa kemungkinan baru ke bidang pembuatan video. Di masa depan, Mardini dapat memainkan peran yang lebih besar dalam produksi film, produksi animasi, dan bidang lain yang membutuhkan pembuatan video.