ปักกิ่ง Zhipu Huazhang Technology Co. , Ltd. ได้เปิดตัวโมเดลโอเพนซอร์ส Cogideox v1.5 ซึ่งได้สร้างความก้าวหน้าอย่างมีนัยสำคัญในด้านการสร้างวิดีโอ หลังจากการเปิดตัวในต้นเดือนสิงหาคมซีรีส์ Cogvideox ได้กลายเป็นจุดสนใจของอุตสาหกรรมอย่างรวดเร็วด้วยเทคโนโลยีชั้นนำและคุณสมบัติที่เป็นมิตรกับนักพัฒนา การอัปเดตนี้ได้นำการปรับปรุงมากมายรวมถึงการสนับสนุนการสร้างวิดีโอที่ยาวนานขึ้นและสูงขึ้นรวมถึงการปรับปรุงที่สำคัญในด้านคุณภาพและความเข้าใจเชิงความหมายของวิดีโอการสร้างภาพทำให้ผู้ใช้ได้รับประสบการณ์การสร้างวิดีโอ AI ที่ดีขึ้น สิ่งที่ควรค่าแก่การสังเกตคือเวอร์ชันใหม่รวมแพลตฟอร์มชิงและโมเดลเอฟเฟกต์เสียงของฟันเฟืองเพื่อปรับปรุงระบบนิเวศการสร้างวิดีโอต่อไป
เนื้อหาของโอเพ่นซอร์สนี้มีสองรุ่น: Cogideox v1.5-5b และ Cogvideox v1.5-5b-I2V เวอร์ชันใหม่จะเปิดตัวบนแพลตฟอร์มชิงพร้อมกันและจะรวมกับโมเดลเอฟเฟกต์เสียง Cogsound ที่เปิดตัวใหม่เพื่อให้การปรับปรุงคุณภาพการสนับสนุนความละเอียดสูงพิเศษสูงเป็นพิเศษ เอาท์พุทและวิดีโอ AI ที่มีเอฟเฟกต์เสียง
ในระดับเทคนิค CogVideox v1.5 กรองข้อมูลวิดีโอที่ขาดการเชื่อมต่อแบบไดนามิกผ่านเฟรมเวิร์กการกรองอัตโนมัติและใช้โมเดลการทำความเข้าใจวิดีโอแบบ end-to-end, COGVLM2-caption เพื่อสร้างคำอธิบายเนื้อหาวิดีโอที่ถูกต้องปรับปรุงการทำความเข้าใจข้อความและการปฏิบัติตามคำสั่ง ความสามารถ นอกจากนี้เวอร์ชันใหม่ยังใช้ตัวแปร Autoencoder ตัวแปรสามมิติที่มีประสิทธิภาพ (3D VAE) เพื่อแก้ปัญหาการเชื่อมโยงเนื้อหาและพัฒนาสถาปัตยกรรมหม้อแปลงที่รวมข้อความสามมิติเวลาและพื้นที่ยกเลิกโมดูลข้ามแบบดั้งเดิมแบบดั้งเดิม และเทคโนโลยีการปรับเลเยอร์แบบปรับตัวของผู้เชี่ยวชาญการปรับใช้ข้อมูลขั้นตอนเวลาในรูปแบบการแพร่กระจายให้เหมาะสมที่สุด
ในแง่ของการฝึกอบรม Cogvideox v1.5 สร้างกรอบการฝึกอบรมแบบจำลองการแพร่กระจายที่มีประสิทธิภาพและได้รับการฝึกอบรมอย่างรวดเร็วของลำดับวิดีโอยาวผ่านเทคนิคการคำนวณแบบขนานและการเพิ่มประสิทธิภาพเวลาที่หลากหลาย บริษัท กล่าวว่าพวกเขาได้ตรวจสอบประสิทธิภาพของการปรับขนาดกฎหมายในด้านการสร้างวิดีโอและวางแผนที่จะขยายปริมาณข้อมูลและมาตราส่วนของโมเดลในอนาคตสำรวจสถาปัตยกรรมแบบจำลองที่เป็นนวัตกรรมเพื่อบีบอัดข้อมูลวิดีโอที่มีประสิทธิภาพมากขึ้นและรวมเนื้อหาข้อความและวิดีโอได้ดีขึ้น
รหัส: https://github.com/thudm/cogvideo
รุ่น: https://huggingface.co/thudm/cogvideox1.5-5b-sat
โอเพ่นซอร์สของ Cogvideox v1.5 เป็นแรงผลักดันใหม่สำหรับการพัฒนาเทคโนโลยีการสร้างวิดีโอและให้เครื่องมือที่มีประสิทธิภาพมากขึ้นนักพัฒนา นวัตกรรมทางเทคโนโลยีอย่างต่อเนื่องของ Zhipu Huazhang และจิตวิญญาณโอเพ่นซอร์สมีค่าควรแก่การรับรู้และโอกาสในการใช้งานในอนาคตของรุ่นนี้คุ้มค่าที่จะรอคอย รอคอยแอพพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นตาม Cogideox v1.5