บรรณาธิการของ Downcodes ทราบว่าบริษัท Zhipu AI เพิ่งเปิดแหล่งที่มาสำหรับการสร้างวิดีโอรุ่นใหม่ CogVideoX-5B โมเดลนี้มีการปรับปรุงที่สำคัญในด้านคุณภาพการสร้างวิดีโอ เอฟเฟ็กต์ภาพ และประสิทธิภาพการอนุมาน ซึ่งเป็นการปรับปรุงที่สำคัญเมื่อเทียบกับผลิตภัณฑ์รุ่นก่อนหน้า CogVideoX-2B แม้แต่การ์ด GTX 1080Ti รุ่นแรกๆ ก็ยังสามารถใช้งานรุ่นก่อนหน้าได้ ในขณะที่การ์ดทั่วไปอย่าง RTX 3060 สามารถรองรับ CogVideoX-5B ได้อย่างง่ายดาย นี่เป็นการลดเกณฑ์สำหรับเทคโนโลยีการสร้างวิดีโอคุณภาพสูงลงอีก ทำให้นักพัฒนาและผู้ใช้ได้รับโซลูชันการสร้างวิดีโอที่สะดวกและมีประสิทธิภาพมากขึ้น
เมื่อเร็วๆ นี้ บริษัท Zhipu AI ได้เปิดซอร์สโมเดลการสร้างวิดีโอใหม่ CogVideoX-5B ไม่เพียงแต่เหนือกว่าผลิตภัณฑ์รุ่นก่อนหน้า CogVideoX-2B ในแง่ของคุณภาพการสร้างวิดีโอและเอฟเฟ็กต์ภาพ แต่ประสิทธิภาพการให้เหตุผลได้รับการปรับปรุงอย่างมาก ทำให้ในช่วงเริ่มต้น กราฟิกการ์ด GTX1080Ti สามารถใช้งานกับรุ่นก่อนหน้าได้ และกราฟิกการ์ดระดับเดสก์ท็อปอย่าง RTX3060 ก็สามารถรองรับรุ่นใหม่นี้ได้อย่างง่ายดาย
การเปรียบเทียบพารามิเตอร์โดยละเอียดระหว่าง CogVideoX-5B และ CogVideoX-2B:
โมเดล DiT (หม้อแปลงกระจาย) ขนาดใหญ่นี้ออกแบบมาเพื่อทำงานสร้างข้อความเป็นวิดีโอ เทคโนโลยีที่อยู่เบื้องหลังประกอบด้วยตัวเข้ารหัสอัตโนมัติแบบแปรผันเชิงสาเหตุ 3 มิติ (3D causal VAE) ซึ่งช่วยให้สามารถสร้างวิดีโอใหม่ได้อย่างมีประสิทธิภาพโดยการบีบอัดข้อมูลวิดีโอลงในพื้นที่แฝงและถอดรหัสในมิติชั่วคราว
นอกจากนี้ การใช้ Expert Transformer ผสมผสานการฝังข้อความและการฝังวิดีโอ ใช้ 3D-RoPE เป็นการเข้ารหัสตำแหน่ง ทำให้ข้อมูลของทั้งสองรูปแบบเป็นมาตรฐานผ่านเลเยอร์การปรับตัวของผู้เชี่ยวชาญ และใช้ความสนใจเต็มรูปแบบของ 3D กลไกแรงถูกสร้างแบบจำลองร่วมกันในอวกาศ และเวลา
รหัส: https://top.aibase.com/tool/cogvideox
ดาวน์โหลดโมเดล: https://huggingface.co/THUDM/CogVideoX-5b
ลิงค์กระดาษ: https://arxiv.org/pdf/2408.06072
โอเพ่นซอร์สของ CogVideoX-5B ได้นำความก้าวหน้าครั้งใหม่มาสู่วงการการสร้างวิดีโอ ลดเกณฑ์ทางเทคนิค และเป็นรากฐานที่มั่นคงสำหรับการวิจัยและการใช้งานในอนาคต บรรณาธิการของ Downcodes เชื่อว่าเทคโนโลยีนี้จะส่งเสริมการพัฒนาเทคโนโลยีการสร้างวิดีโอเพิ่มเติม และนำแอปพลิเคชันที่เป็นนวัตกรรมไปสู่สาขาอื่นๆ มากขึ้น