Model pembuatan video Zhipu AI sumber terbuka CogVideoX v1.5 mendukung pembuatan video 5/10 detik

Penulis：Eve Cole Waktu Pembaruan：2025-01-20 13:12:02

Beijing Zhipu Huazhang Technology Co., Ltd. telah meluncurkan CogVideoX v1.5. Versi terbaru dari model pembuatan video ini telah menjadi sumber terbuka! Sejak dirilis pada awal Agustus, seri CogVideoX dengan cepat menjadi pilihan populer di bidang pembuatan video dengan teknologi terdepan dan fitur ramah pengembang. Editor Downcodes mengetahui bahwa CogVideoX v1.5 telah mencapai peningkatan signifikan dalam kemampuan pembuatan video dan model konversi gambar-ke-video (I2V), sehingga memberikan pengalaman pembuatan video yang lebih baik dan lebih nyaman bagi pengguna.

Sumber terbuka ini mencakup dua model: CogVideoX v1.5-5B dan CogVideoX v1.5-5B-I2V. Mereka diluncurkan secara bersamaan pada platform Qingying dan dikombinasikan dengan model efek suara CogSound untuk menyediakan layanan pembuatan video AI yang lebih bertenaga, mendukung resolusi definisi lebih tinggi, proporsi variabel untuk beradaptasi dengan pemandangan yang berbeda, keluaran multi-saluran, dan pembuatan video AI dengan efek suara. Pada tingkat teknis, CogVideoX v1.5 secara signifikan meningkatkan kualitas pembuatan video dan koherensi konten melalui teknologi seperti kerangka penyaringan otomatis, model pemahaman video end-to-end CogVLM2-caption, dan autoencoder variasi tiga dimensi (3D VAE) yang efisien. Selain itu, arsitektur Transformer yang dikembangkan secara independen yang mengintegrasikan tiga dimensi teks, waktu dan ruang semakin mengoptimalkan kinerja model.

Dalam hal pelatihan, CogVideoX v1.5 membangun kerangka pelatihan model difusi yang efisien dan mencapai pelatihan cepat rangkaian video panjang melalui berbagai komputasi paralel dan teknologi pengoptimalan waktu. Zhipu Huazhang mengatakan bahwa mereka telah memverifikasi efektivitas hukum penskalaan di bidang pembuatan video, dan berencana untuk memperluas jumlah data dan skala model di masa depan, serta mengeksplorasi arsitektur model inovatif untuk mengompresi informasi video dengan lebih efisien dan mengintegrasikan teks dan dengan lebih baik. Konten video.

Kode: https://github.com/thudm/cogvideo

Model: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Sumber terbuka CogVideoX v1.5 tidak diragukan lagi akan lebih mendorong pengembangan teknologi dan inovasi aplikasi di bidang pembuatan video, menyediakan alat dan sumber daya yang lebih canggih bagi pengembang. Nantikan lebih banyak kejutan dari seri CogVideoX di masa mendatang!