Zhipu AI telah merilis model generasi video baru CogVideoX, yang intinya adalah meningkatkan efisiensi dan kualitas pembuatan video secara signifikan, menandai terobosan besar perusahaan di bidang teknologi multimodal. CogVideoX telah mencapai banyak inovasi di tingkat teknis dan telah dibuka untuk pengguna melalui platform Zhipu Qingyan, menyediakan layanan pembuatan video AI yang nyaman dan menyediakan antarmuka panggilan API untuk perusahaan dan pengembang.
Zhipu AI telah meluncurkan model generasi video baru CogVideoX, yang menandai kemajuan penting lainnya dalam pengembangan teknologi multimodal perusahaan.
Fitur teknis inti CogVideoX meliputi:
Struktur autoencoder variasi tiga dimensi (VAE 3D): Struktur yang dikembangkan secara independen oleh Zhipu AI ini dapat mengompresi data video asli hingga 2% dari ukuran aslinya, sehingga mengurangi biaya dan kesulitan pelatihan. Dikombinasikan dengan modul pengkodean posisi RoPE 3D, ini meningkatkan kemampuan untuk menangkap hubungan antar-bingkai dalam dimensi waktu dan membangun ketergantungan jangka panjang dalam video.
Model pemahaman video menyeluruh: Model ini meningkatkan kemampuan model untuk memahami teks dan mengikuti instruksi, memastikan bahwa video yang dihasilkan lebih sesuai dengan kebutuhan pengguna dan dapat menangani instruksi cepat yang sangat panjang dan rumit.
Arsitektur transformator yang mengintegrasikan teks, waktu, dan ruang dalam tiga dimensi: Expert Block dirancang secara inovatif untuk menyelaraskan ruang modal teks dan video, dan mengoptimalkan interaksi antar modalitas melalui mekanisme Full Attention.
Model CogVideoX telah diluncurkan di PC, aplikasi seluler, dan program mini Zhipu Qingyan. Pengguna dapat merasakan layanan video yang dihasilkan teks AI dan video yang dihasilkan gambar secara gratis melalui fungsi "Ying". Fitur utama Qingying mencakup pembuatan cepat, kemampuan mengikuti perintah yang efisien, koherensi konten, dan fleksibilitas penjadwalan layar.
Selain itu, bigmodel.cn, platform terbuka untuk model besar, juga telah menerapkan "Qingying", dan perusahaan serta pengembang dapat menggunakan fungsinya melalui panggilan API. Zhipu AI telah memverifikasi efektivitas Scaling Law di bidang pembuatan video, dan akan terus memperluas skala data dan skala model, serta meneliti arsitektur model baru untuk mengompresi informasi video secara lebih efisien dan mengintegrasikan konten teks dan video secara lebih komprehensif.
Alamat pengalaman: https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu
Peluncuran CogVideoX tidak hanya memberikan pengalaman pembuatan video AI yang lebih nyaman bagi pengguna, namun juga menunjukkan bahwa teknologi pembuatan video AI akan mengantarkan tahap perkembangan baru. Di masa depan, Zhipu AI akan terus mengeksplorasi arsitektur model dan solusi teknis yang lebih canggih untuk mendorong kemajuan berkelanjutan dalam teknologi pembuatan video AI.