Zhipu AI membuat model pembuatan videonya menjadi sumber terbuka, CogVideoX, sebuah langkah yang bertujuan untuk mempercepat pengembangan dan mempopulerkan aplikasi teknologi pembuatan video. Dengan kinerjanya yang efisien, versi CogVideoX-2B hanya memerlukan satu kartu grafis 4090 untuk melakukan inferensi, dan satu kartu grafis A6000 untuk menyelesaikan penyempurnaan, yang sangat menurunkan ambang batas penggunaan dan memungkinkannya digunakan lebih luas dalam komersial bidang. Model ini didasarkan pada teknologi autoencoder variasional 3D (3D VAE) yang canggih dan dikombinasikan dengan teknologi Transformer ahli, yang dapat menghasilkan konten video berkualitas tinggi, secara efektif memecahkan masalah kurangnya deskripsi teks pada data video, dan menyaring data video secara ketat. , memastikan kualitas data pelatihan model.
Model CogVideoX menggunakan teknologi autoencoder variasional 3D (3D VAE) untuk secara bersamaan mengompresi dimensi spasial dan temporal video melalui konvolusi tiga dimensi, sehingga mencapai tingkat kompresi yang lebih tinggi dan kualitas rekonstruksi yang lebih baik. Struktur model mencakup encoder, decoder, dan pengatur ruang laten, yang memastikan kausalitas informasi melalui konvolusi kausal temporal. Selain itu, teknologi Expert Transformer digunakan untuk memproses data video yang dikodekan dan menggabungkannya dengan input teks untuk menghasilkan konten video berkualitas tinggi. Untuk melatih model CogVideoX, Zhipu AI telah mengembangkan serangkaian metode untuk menyaring data video berkualitas tinggi, menghilangkan video dengan pengeditan berlebihan, gerakan tidak koheren, dan masalah lainnya, serta memastikan kualitas data untuk pelatihan model. Pada saat yang sama, masalah kurangnya deskripsi teks pada data video diselesaikan melalui saluran yang menghasilkan subtitle video dari subtitle gambar. Dalam hal evaluasi kinerja, CogVideoX berkinerja baik pada berbagai indikator, termasuk tindakan manusia, pemandangan, tingkat dinamis, dll., serta alat evaluasi yang berfokus pada karakteristik dinamis video. Zhipu AI akan terus mengeksplorasi inovasi di bidang pembuatan video, termasuk arsitektur model baru, kompresi informasi video, serta penggabungan konten teks dan video.
Untuk melatih model CogVideoX, Zhipu AI telah mengembangkan serangkaian metode untuk menyaring data video berkualitas tinggi, menghilangkan video dengan pengeditan berlebihan, gerakan tidak koheren, dan masalah lainnya, serta memastikan kualitas data untuk pelatihan model. Pada saat yang sama, masalah kurangnya deskripsi teks pada data video diselesaikan melalui saluran yang menghasilkan subtitle video dari subtitle gambar.
Dalam hal evaluasi kinerja, CogVideoX berkinerja baik pada berbagai indikator, termasuk tindakan manusia, pemandangan, tingkat dinamis, dll., serta alat evaluasi yang berfokus pada karakteristik dinamis video. Zhipu AI akan terus mengeksplorasi inovasi di bidang pembuatan video, termasuk arsitektur model baru, kompresi informasi video, serta penggabungan konten teks dan video.
Penyimpanan kode:
https://github.com/THUDM/CogVideo
Unduhan model:
https://huggingface.co/THUDM/CogVideoX-2b
Laporan teknis:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
CogVideoX yang open source menyediakan sumber daya berharga untuk penelitian teknologi pembuatan video, dan juga menunjukkan bahwa bidang ini akan mengantarkan gelombang perkembangan baru. Performanya yang efisien dan kemudahan penggunaannya akan mendorong lebih banyak pengembang untuk berpartisipasi dalam inovasi teknologi pembuatan video dan mempromosikan penerapannya secara luas di berbagai industri. Kami menantikan lebih banyak terobosan yang dibuat oleh Zhipu AI di bidang ini di masa depan!