ชุมชน ModelScope ได้เปิดซอร์สเวอร์ชันอัปเกรดของรุ่นการสร้างวิดีโอ Sora โอเพ่นซอร์สภายในประเทศ CogVideoX - CogVideoX-5B ซึ่งเป็นโมเดลการสร้างข้อความเป็นวิดีโอโดยใช้โมเดล DiT ขนาดใหญ่ เมื่อเปรียบเทียบกับ CogVideoX-2B รุ่นก่อนหน้า รุ่นใหม่ได้ปรับปรุงคุณภาพวิดีโอและเอฟเฟ็กต์ภาพอย่างมาก CogVideoX-5B ใช้การเข้ารหัสอัตโนมัติเชิงสาเหตุ 3 มิติ (VAE เชิงสาเหตุ 3 มิติ) และเทคโนโลยี Transformer ผู้เชี่ยวชาญ และใช้ 3D-RoPE เป็นกลไกการเข้ารหัสตำแหน่งและกลไกความสนใจแบบเต็มรูปแบบ 3 มิติสำหรับการสร้างแบบจำลองข้อต่อเชิงพื้นที่และชั่วคราว นอกจากนี้ยังใช้เทคโนโลยีการฝึกอบรมแบบก้าวหน้าที่สามารถสร้างได้นานขึ้น วิดีโอคุณภาพสูงขึ้นและมีภาพเคลื่อนไหวมากขึ้น
เมื่อเปรียบเทียบกับ CogVideoX-2B รุ่นก่อนหน้า รุ่นใหม่ได้ปรับปรุงคุณภาพและเอฟเฟ็กต์ภาพของการสร้างวิดีโออย่างมาก
CogVideoX-5B ใช้โมเดล DiT (หม้อแปลงกระจาย) ขนาดใหญ่ ออกแบบมาเป็นพิเศษสำหรับงานสร้างข้อความเป็นวิดีโอ โมเดลนี้ใช้ตัวเข้ารหัสอัตโนมัติแบบแปรผันเชิงสาเหตุ 3 มิติ (VAE เชิงสาเหตุ 3 มิติ) และเทคโนโลยี Transformer ผู้เชี่ยวชาญ ผสมผสานการฝังข้อความและวิดีโอ ใช้ 3D-RoPE เป็นการเข้ารหัสตำแหน่ง และใช้กลไกความสนใจแบบ 3 มิติเต็มรูปแบบสำหรับการสร้างแบบจำลองข้อต่อเชิงพื้นที่และชั่วคราว
นอกจากนี้ โมเดลดังกล่าวยังใช้เทคโนโลยีการฝึกอบรมแบบก้าวหน้าและสามารถสร้างวิดีโอคุณภาพสูงที่สอดคล้องกันในระยะยาวพร้อมคุณสมบัติการเคลื่อนไหวที่สำคัญ
ลิงค์รุ่น:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b
โอเพ่นซอร์สของ CogVideoX-5B ได้นำความก้าวหน้าทางเทคโนโลยีใหม่ๆ และโอกาสในการพัฒนามาสู่วงการการสร้างวิดีโอ AI ในประเทศ และยังมอบเครื่องมือและทรัพยากรอันทรงพลังสำหรับนักวิจัยและนักพัฒนาอีกด้วย เชื่อกันว่าแอปพลิเคชันที่เป็นนวัตกรรมใหม่ที่ใช้ CogVideoX-5B จะปรากฏขึ้นในอนาคต โดยส่งเสริมความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยีการสร้างวิดีโอ AI การเข้าถึงแบบจำลองอย่างง่ายดายยังช่วยลดเกณฑ์ในการวิจัยและการประยุกต์ ส่งเสริมการเผยแพร่และการประยุกต์ใช้เทคโนโลยีในวงกว้าง