CogVideoX v1.5, versi terbaru model video sumber terbuka Zhipu AI, online dengan "video jernih baru" 4K berdurasi 10 detik

Penulis：Eve Cole Waktu Pembaruan：2024-12-01 09:00:01

Editor Downcodes melaporkan: Tim teknis Zhipu hari ini merilis model pembuatan video CogVideoX v1.5 open source utama, yang merupakan peningkatan besar lainnya dari seri ini sejak Agustus. Versi baru ini telah membuat terobosan signifikan dalam kemampuan pembuatan video, mendukung video yang lebih panjang, resolusi lebih tinggi, dan frame rate yang lebih halus, dan dikombinasikan dengan model efek suara CogSound yang baru diluncurkan untuk menciptakan platform "video jernih baru" untuk menyediakan video Premium yang lebih baik kepada pengguna. pengalaman penciptaan. Pembaruan ini tidak hanya meningkatkan kualitas video, tetapi juga meningkatkan kemampuan model untuk memahami semantik yang kompleks, sehingga memberi pengembang alat yang lebih canggih.

Dapat dipahami bahwa pembaruan ini telah sangat meningkatkan kemampuan pembuatan video, termasuk mendukung video berdurasi 5 detik dan 10 detik, resolusi 768P, dan kemampuan pembuatan 16 bingkai. Pada saat yang sama, model I2V (gambar ke video) juga mendukung rasio ukuran apa pun, sehingga semakin meningkatkan kemampuan untuk memahami semantik yang kompleks.

CogVideoX v1.5 berisi dua model utama: CogVideoX v1.5-5B dan CogVideoX v1.5-5B-I2V, yang dirancang untuk memberi pengembang alat pembuatan video yang lebih canggih.

Yang lebih penting lagi adalah CogVideoX v1.5 akan diluncurkan secara bersamaan di platform Qingying dan digabungkan dengan model efek suara CogSound yang baru diluncurkan untuk menjadi "Qingying Baru" . Qingying baru akan memberikan sejumlah layanan khusus, termasuk peningkatan signifikan dalam kualitas video, kinerja estetika, dan rasionalitas gerakan, serta mendukung pembuatan video definisi ultra tinggi berdurasi 10 detik, 4K, 60 bingkai.

Pengenalan resminya adalah sebagai berikut:

Peningkatan kualitas: Kemampuan video Tusheng dalam hal kualitas, performa estetika, rasionalitas gerakan, dan pemahaman semantik kata-kata cepat yang kompleks telah ditingkatkan secara signifikan.
Resolusi ultra-HD: Mendukung pembuatan video definisi ultra tinggi 10 detik, 4K, dan 60 bingkai.
Rasio variabel: mendukung rasio apa pun untuk beradaptasi dengan skenario pemutaran yang berbeda.
Output multi-saluran: Perintah/gambar yang sama dapat menghasilkan 4 video sekaligus.
Video AI dengan efek suara: Xinqingying dapat menghasilkan efek suara yang sesuai dengan gambar.

Dalam hal pemrosesan data, tim CogVideoX berfokus pada peningkatan kualitas data, mengembangkan kerangka pemfilteran otomatis untuk menyaring data video buruk, dan meluncurkan model pemahaman video ujung ke ujung CogVLM2-caption untuk menghasilkan deskripsi konten yang akurat. Model ini dapat secara efektif menangani instruksi kompleks dan memastikan bahwa video yang dihasilkan sesuai dengan kebutuhan pengguna.

Untuk meningkatkan koherensi konten, CogVideoX menggunakan teknologi autoencoder variasi tiga dimensi (3D VAE) yang efisien, yang secara signifikan mengurangi biaya dan kesulitan pelatihan. Selain itu, tim juga mengembangkan arsitektur Transformer yang mengintegrasikan tiga dimensi teks, waktu dan ruang. Dengan menghilangkan modul perhatian silang tradisional, efek interaktif teks dan video ditingkatkan, dan kualitas pembuatan video ditingkatkan.

Di masa depan, tim teknis Zhipu akan terus memperluas jumlah data dan skala model, serta mengeksplorasi arsitektur model yang lebih efisien untuk mencapai pengalaman pembuatan video yang lebih baik. Sumber terbuka CogVideoX v1.5 tidak hanya memberi pengembang alat canggih, tetapi juga memberikan vitalitas baru ke dalam bidang pembuatan video.

Kode: https://github.com/thudm/cogvideo

Model: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Menyorot:

Versi baru CogVideoX v1.5 adalah open source dan mendukung video 5/10 detik, resolusi 768P, dan kemampuan pembuatan 16 frame.

Platform Qingying baru diluncurkan, dikombinasikan dengan model efek suara CogSound, untuk menyediakan pembuatan video 4K definisi ultra-tinggi.

Pemrosesan data dan inovasi algoritma memastikan kualitas dan konsistensi video yang dihasilkan.

Secara keseluruhan, open source CogVideoX v1.5 dan peluncuran platform Qingying baru menandai langkah penting dalam teknologi pembuatan video AI, menghadirkan alat yang lebih canggih dan ruang kreatif yang lebih luas bagi pengembang dan pembuat konten. Kami berharap dapat melihat lebih banyak aplikasi menarik berdasarkan CogVideoX di masa depan.