Editor Downcodes mengetahui bahwa Zhipu AI Company baru-baru ini melakukan open source model generasi video baru CogVideoX-5B. Model ini telah mencapai peningkatan signifikan dalam kualitas pembuatan video, efek visual, dan kinerja inferensi, yang merupakan peningkatan signifikan dibandingkan produk generasi sebelumnya CogVideoX-2B. Bahkan kartu GTX 1080Ti versi awal dapat menjalankan model generasi sebelumnya, sedangkan kartu mainstream seperti RTX 3060 dapat menangani CogVideoX-5B dengan mudah. Hal ini menandai semakin rendahnya ambang batas teknologi pembuatan video berkualitas tinggi, sehingga memberikan lebih banyak pengembang dan pengguna solusi pembuatan video yang nyaman dan efisien.
Baru-baru ini, Perusahaan Zhipu AI telah membuka sumber model generasi video baru CogVideoX-5B. Tidak hanya melampaui produk generasi sebelumnya CogVideoX-2B dalam hal kualitas pembuatan video dan efek visual, tetapi kinerja penalarannya telah meningkat pesat, menjadikan Early Kartu grafis GTX1080Ti dapat menjalankan model generasi sebelumnya, dan kartu grafis tingkat makanan penutup desktop, seperti RTX3060, dapat dengan mudah menangani model baru ini.
Perbandingan parameter terperinci antara CogVideoX-5B dan CogVideoX-2B:
Model DiT (transformator difusi) skala besar ini dirancang untuk melakukan tugas pembuatan teks-ke-video. Teknologi di baliknya mencakup autoencoder variasi kausal 3D (VAE kausal 3D), yang menghasilkan rekonstruksi video yang efisien dengan mengompresi data video ke dalam ruang laten dan mendekodekannya dalam dimensi temporal.
Selain itu, penggunaan Expert Transformer menggabungkan penyematan teks dan penyematan video, menggunakan 3D-RoPE sebagai pengkodean posisi, menormalkan data dari dua modalitas melalui lapisan adaptif ahli, dan menggunakan perhatian penuh 3D. Mekanisme gaya dimodelkan bersama dalam ruang dan waktu.
Kode: https://top.aibase.com/tool/cogvideox
Unduhan model: https://huggingface.co/THUDM/CogVideoX-5b
Tautan makalah: https://arxiv.org/pdf/2408.06072
CogVideoX-5B open source telah membawa terobosan baru di bidang pembuatan video, menurunkan ambang batas teknis, dan memberikan landasan yang kuat untuk penelitian dan aplikasi di masa depan. Editor Downcodes percaya bahwa teknologi ini akan mendorong pengembangan lebih lanjut dari teknologi pembuatan video dan membawa aplikasi inovatif ke lebih banyak bidang.