มหาวิทยาลัยปักกิ่งร่วมมือกับทีม Kuaishou AI เพื่อพัฒนาเฟรมเวิร์กการสร้างวิดีโอใหม่ที่เรียกว่า VideoTetris ซึ่งแก้ไขปัญหาการสร้างวิดีโอที่ซับซ้อนได้สำเร็จ และประสิทธิภาพเหนือกว่าโมเดลเชิงพาณิชย์เช่น Pika และ Gen-2 เฟรมเวิร์กนี้กำหนดงานการสร้างวิดีโอแบบรวมอย่างสร้างสรรค์ สามารถสร้างวิดีโอได้อย่างแม่นยำตามคำสั่งที่ซับซ้อน และรองรับการสร้างวิดีโอแบบยาวและคำสั่งหลายอ็อบเจ็กต์แบบก้าวหน้า แก้ไขข้อบกพร่องของโมเดลที่มีอยู่ในการประมวลผลคำสั่งและรายละเอียดที่ซับซ้อนได้อย่างมีประสิทธิภาพ เช่น การค้นหาหลายรายการอย่างแม่นยำ วัตถุและการรักษารายละเอียดลักษณะเฉพาะ
ข่าวจาก ChinaZ.com เมื่อวันที่ 17 มิถุนายน: มหาวิทยาลัยปักกิ่งและทีม Kuaishou AI ร่วมมือกันเพื่อเอาชนะปัญหาการสร้างวิดีโอที่ซับซ้อนได้สำเร็จ พวกเขาเสนอเฟรมเวิร์กใหม่ที่เรียกว่า VideoTetris ซึ่งสามารถรวมรายละเอียดต่างๆ เช่น ปริศนา เพื่อสร้างวิดีโอที่มีความยากสูงและคำแนะนำที่ซับซ้อนได้อย่างง่ายดาย เฟรมเวิร์กนี้เหนือกว่าโมเดลเชิงพาณิชย์ เช่น Pika และ Gen-2 ในงานสร้างวิดีโอที่ซับซ้อน
กรอบงาน VideoTetris กำหนดงานการสร้างวิดีโอแบบรวมเป็นครั้งแรก รวมถึงงานย่อยสองงาน: 1) การสร้างวิดีโอตามคำสั่งผสมที่ซับซ้อน 2) การสร้างวิดีโอแบบยาวตามคำสั่งแบบหลายอ็อบเจ็กต์แบบก้าวหน้า ทีมงานพบว่าโอเพ่นซอร์สและโมเดลเชิงพาณิชย์ที่มีอยู่เกือบทั้งหมดไม่สามารถสร้างวิดีโอที่ถูกต้องได้ ตัวอย่างเช่น หากคุณป้อน "สุนัขสีน้ำตาลน่ารักทางด้านซ้าย และแมวที่กำลังงีบหลับอยู่ทางขวา" วิดีโอที่ได้มักจะหลอมรวมข้อมูลเกี่ยวกับวัตถุทั้งสอง ที่ดูแปลก ๆ
ในทางตรงกันข้าม VideoTetris สามารถเก็บข้อมูลตำแหน่งและคุณสมบัติโดยละเอียดทั้งหมดได้สำเร็จ ในการสร้างวิดีโอขนาดยาว รองรับคำสั่งที่ซับซ้อนมากขึ้น เช่น "การเปลี่ยนจากกระรอกสีน้ำตาลน่ารักบนกองเฮเซลนัทเป็นกระรอกสีน้ำตาลน่ารัก และกระรอกสีขาวน่ารักบนกองเฮเซลนัท" ลำดับของวิดีโอที่สร้างขึ้นนั้นสอดคล้องกับคำแนะนำในการป้อนข้อมูล และกระรอกสองตัวสามารถแลกเปลี่ยนอาหารได้ตามธรรมชาติ
กรอบงาน VideoTetris ใช้วิธีการแพร่กระจายแบบรวม spatiotemporal อันดับแรกจะแยกโครงสร้างข้อความแจ้งตามเวลา และกำหนดข้อมูลข้อความแจ้งที่แตกต่างกันให้กับเฟรมวิดีโอต่างๆ จากนั้นมิติเชิงพื้นที่จะถูกแยกส่วนในแต่ละเฟรมเพื่อแมปวัตถุที่แตกต่างกันไปยังพื้นที่วิดีโอที่แตกต่างกัน ท้ายที่สุด การสร้างคำสั่งแบบผสมผสานที่มีประสิทธิภาพสามารถทำได้โดยอาศัยความสนใจข้ามมิติเชิงพื้นที่
เพื่อสร้างวิดีโอขนาดยาวคุณภาพสูงขึ้น ทีมงานยังได้เสนอวิธีการประมวลผลข้อมูลล่วงหน้าที่ได้รับการปรับปรุงเพื่อทำให้การสร้างวิดีโอขนาดยาวมีความไดนามิกและมีเสถียรภาพมากขึ้น นอกจากนี้ ยังมีการนำกลไกการสนใจหน้าต่างอ้างอิงมาใช้ และใช้ VAE แบบเนทีฟเพื่อเข้ารหัสข้อมูลเฟรมก่อนหน้า ซึ่งแตกต่างจากรุ่นอื่นๆ ที่ใช้การเข้ารหัส CLIP ดังนั้นจึงบรรลุความสอดคล้องของเนื้อหาที่ดีขึ้น
ผลลัพธ์ของการเพิ่มประสิทธิภาพคือวิดีโอขนาดยาวไม่มีสีที่ใช้ในพื้นที่ขนาดใหญ่อีกต่อไป สามารถปรับให้เข้ากับคำแนะนำที่ซับซ้อนได้ดีขึ้น และวิดีโอที่สร้างขึ้นจะมีความไดนามิกและเป็นธรรมชาติมากขึ้น ทีมงานยังได้แนะนำตัวบ่งชี้การประเมินผลใหม่ VBLIP-VQA และ VUnidet ซึ่งขยายวิธีการประเมินการสร้างแบบรวมไปสู่มิติวิดีโอเป็นครั้งแรก
การทดสอบเชิงทดลองแสดงให้เห็นว่าในแง่ของความสามารถในการสร้างวิดีโอแบบรวม โมเดล VideoTetris มีประสิทธิภาพเหนือกว่าโมเดลโอเพ่นซอร์สทั้งหมด แม้แต่รุ่นเชิงพาณิชย์ เช่น Gen-2 และ Pika มีรายงานว่าโค้ดจะเป็นโอเพ่นซอร์สโดยสมบูรณ์
ที่อยู่โครงการ: https://top.aibase.com/tool/videotetris
โดยรวมแล้ว กรอบงาน VideoTetris ได้สร้างความก้าวหน้าครั้งสำคัญในด้านการสร้างวิดีโอที่ซับซ้อน และวิธีการแพร่กระจายแบบผสมผสานเชิงพื้นที่ที่มีประสิทธิภาพและตัวชี้วัดการประเมินนวัตกรรม มอบทิศทางใหม่สำหรับการพัฒนาเทคโนโลยีการสร้างวิดีโอในอนาคต โอเพ่นซอร์สของโครงการนี้ยังมอบทรัพยากรที่มีคุณค่าแก่นักวิจัยมากขึ้นและส่งเสริมการพัฒนาเพิ่มเติมในสาขานี้ เราหวังว่า VideoTetris จะสามารถมีบทบาทในสถานการณ์การใช้งานเพิ่มเติมได้ในอนาคต