การสร้างวิดีโอที่มีคุณภาพสูงอย่างมีประสิทธิภาพเป็นความท้าทายที่สำคัญในด้านวิสัยทัศน์คอมพิวเตอร์ นักวิจัย Meta AI เสนอวิธีการเร่งความเร็วแบบปราศจากการฝึกอบรมที่เรียกว่า Adacache เพื่อตอบสนองต่อการอนุมานช้าของโมเดลการแพร่กระจายของหม้อแปลง (DITS) ที่มีอยู่ Adacache ใช้ความแตกต่างของเนื้อหาวิดีโออย่างชาญฉลาดปรับแต่งกลยุทธ์การแคชสำหรับแต่ละวิดีโอและแนะนำรูปแบบการเคลื่อนไหวการเคลื่อนไหวเพื่อจัดสรรทรัพยากรการคำนวณแบบไดนามิกตามเนื้อหาการเคลื่อนไหวของวิดีโออย่างมีนัยสำคัญ
การสร้างวิดีโอที่มีคุณภาพสูงและต่อเนื่องต้องใช้ทรัพยากรการคำนวณจำนวนมากโดยเฉพาะอย่างยิ่งสำหรับช่วงเวลาที่ยาวนานขึ้น แม้ว่าโมเดลการแพร่กระจายของหม้อแปลงล่าสุด (DITS) มีความคืบหน้าอย่างมีนัยสำคัญในการสร้างวิดีโอ แต่ความท้าทายนี้ทวีความรุนแรงขึ้นโดยการใช้เหตุผลช้าลงเนื่องจากการพึ่งพาโมเดลขนาดใหญ่และกลไกความสนใจที่ซับซ้อนมากขึ้น เพื่อแก้ปัญหานี้นักวิจัยที่ Meta AI เสนอวิธีการฝึกอบรมที่ไม่ต้องฝึกอบรมที่เรียกว่า Adacache เพื่อเร่งวิดีโอ DITS
แนวคิดหลักของ Adacache ขึ้นอยู่กับความจริงที่ว่า“ วิดีโอทั้งหมดไม่เหมือนกัน” ซึ่งหมายความว่าวิดีโอบางรายการต้องการขั้นตอนการปฏิเสธน้อยกว่าอื่น ๆ เพื่อให้ได้คุณภาพที่สมเหตุสมผล จากวิธีนี้วิธีการไม่เพียง แต่แคชผลลัพธ์การคำนวณในระหว่างกระบวนการแพร่กระจาย แต่ยังออกแบบกลยุทธ์แคชที่กำหนดเองสำหรับการสร้างวิดีโอแต่ละครั้งซึ่งจะเป็นการเพิ่มการแลกเปลี่ยนระหว่างคุณภาพและเวลาแฝง
นักวิจัยได้แนะนำรูปแบบการเคลื่อนไหวเป็นมาตรฐาน (MoreG) ซึ่งใช้ข้อมูลวิดีโอใน Adacache เพื่อควบคุมการจัดสรรทรัพยากรการคำนวณตามเนื้อหาการเคลื่อนไหว เนื่องจากลำดับวิดีโอที่มีพื้นผิวความถี่สูงและเนื้อหาการเคลื่อนไหวจำนวนมากจำเป็นต้องใช้ขั้นตอนการแพร่กระจายมากขึ้นเพื่อให้ได้คุณภาพที่สมเหตุสมผล
ผลการทดลองแสดงให้เห็นว่า Adacache สามารถปรับปรุงความเร็วในการอนุมานได้อย่างมีนัยสำคัญ (ตัวอย่างเช่นการสร้างวิดีโอแบบเปิด SORA720P -2S สูงสุด 4.7 เท่า) โดยไม่ต้องเสียสละคุณภาพการสร้าง นอกจากนี้ Adacache ยังมีความสามารถในการวางนัยทั่วไปที่ดีและสามารถนำไปใช้กับโมเดลวิดีโอที่แตกต่างกันเช่น Open-Sora, Open-Sora-Plan และ Latte Adacache มีข้อดีอย่างมีนัยสำคัญทั้งความเร็วและคุณภาพเมื่อเทียบกับวิธีการเร่งความเร็วที่ปราศจากการฝึกอบรมอื่น ๆ เช่น ∆-dit, T-gate และ PAB
การวิจัยผู้ใช้แสดงให้เห็นว่าผู้ใช้ชอบวิดีโอที่สร้างขึ้นจาก Adacache เมื่อเทียบกับวิธีอื่น ๆ และเชื่อว่าคุณภาพของพวกเขาเปรียบได้กับโมเดลมาตรฐาน การศึกษาครั้งนี้ยืนยันถึงประสิทธิภาพของ Adacache และมีส่วนร่วมที่สำคัญในด้านการสร้างวิดีโอที่มีประสิทธิภาพ Meta AI เชื่อว่า Adacache สามารถใช้กันอย่างแพร่หลายและส่งเสริมความนิยมของการสร้างวิดีโอยาวที่มีความเที่ยงตรงสูง
กระดาษ: https://arxiv.org/abs/2411.02397
หน้าแรกของโครงการ:
https://adacache-dit.github.io/
GitHub:
https://github.com/adacache-dit/adacache
กล่าวโดยย่อ Adacache ซึ่งเป็นวิธีการเร่งความเร็ววิดีโอที่มีประสิทธิภาพให้ความเป็นไปได้ใหม่สำหรับการสร้างวิดีโอยาวที่มีความเที่ยงตรงสูงและการปรับปรุงประสิทธิภาพที่สำคัญและประสบการณ์ผู้ใช้ที่ดีทำให้มีโอกาสในวงกว้างในแอปพลิเคชันในอนาคต งานวิจัยนี้โดย Meta AI ได้นำความก้าวหน้าที่สำคัญมาสู่การสร้างวิดีโอที่มีประสิทธิภาพ