Alibaba merilis model video pembuatan gambar sumber terbuka I2VGen-XL

Penulis：Eve Cole Waktu Pembaruan：2025-01-14 08:00:02

Alibaba merilis model video pembuatan gambar I2VGen-XL pada bulan November, dan kode serta modelnya akhirnya resmi menjadi open source. Model ini menggunakan metode pemrosesan dua tahap. Tahap pertama memastikan koherensi semantik, dan tahap kedua meningkatkan detail dan resolusi video dengan mengintegrasikan teks pendek. Melalui pelatihan data besar-besaran, I2VGen-XL telah menunjukkan akurasi semantik yang lebih tinggi, kontinuitas detail, dan kejelasan di bidang pembuatan video, membawa terobosan baru di bidang pembuatan gambar ke video.

Alibaba mengumumkan model video pembuatan gambar I2VGen-XL open source dalam sebuah makalah yang diterbitkan pada bulan November, dan sekarang akhirnya merilis kode dan model spesifiknya. Model diproses melalui dua tahap, pertama tahap dasar untuk memastikan koherensi semantik, dan kemudian tahap optimasi untuk meningkatkan detail video dan meningkatkan resolusi dengan mengintegrasikan teks pendek. Tim peneliti mengumpulkan data dalam jumlah besar untuk optimasi, sehingga model I2VGen-XL memiliki akurasi semantik yang lebih tinggi, kontinuitas detail, dan kejelasan dalam menghasilkan video. Kode detailnya dapat ditemukan di GitHub.

Model I2VGen-XL yang bersifat open source menyediakan sumber daya berharga bagi para peneliti dan pengembang serta membantu mendorong pengembangan lebih lanjut teknologi video pembuatan gambar. Alur pemrosesan yang efisien dan efek pembangkitan yang luar biasa menunjukkan potensi besar teknologi video yang dihasilkan AI di masa depan. Nantikan aplikasi yang lebih inovatif berdasarkan I2VGen-XL.