นักวิจัย Meta AI ได้เสนอวิธีการที่ไม่ต้องมีการฝึกอบรมที่เรียกว่า AdaCache ซึ่งออกแบบมาเพื่อเร่งความเร็วอนุมานของโมเดล DiTs ของ Video DiTfusion Transformer DiT ทำงานได้ดีในด้านการสร้างวิดีโอ แต่ขนาดโมเดลที่ใหญ่และกลไกความสนใจที่ซับซ้อนทำให้ความเร็วในการอนุมานช้าลง ซึ่งจำกัดการใช้งาน AdaCache ใช้ประโยชน์อย่างชาญฉลาดจากข้อเท็จจริงที่ว่า "วิดีโอบางรายการไม่เหมือนกัน" โดยการแคชผลการคำนวณและปรับแต่งกลยุทธ์การแคชสำหรับวิดีโอแต่ละรายการ ซึ่งช่วยปรับปรุงประสิทธิภาพการอนุมานอย่างมากในขณะเดียวกันก็รับประกันคุณภาพการสร้าง บรรณาธิการของ Downcodes จะอธิบายเทคโนโลยีนี้โดยละเอียดให้คุณ
การสร้างวิดีโอคุณภาพสูงและต่อเนื่องตามเวลาต้องใช้ทรัพยากรในการคำนวณจำนวนมาก โดยเฉพาะอย่างยิ่งสำหรับช่วงเวลาที่นานกว่า แม้ว่า Diffusion Transformer รุ่นล่าสุด (DiTs) จะมีความก้าวหน้าอย่างมากในการสร้างวิดีโอ แต่ความท้าทายนี้กลับรุนแรงขึ้นเนื่องจากการอนุมานที่ช้าลง เนื่องจากการพึ่งพาโมเดลที่ใหญ่กว่าและกลไกความสนใจที่ซับซ้อนมากขึ้น เพื่อแก้ปัญหานี้ นักวิจัยที่ Meta AI ได้เสนอวิธีการที่ไม่ต้องใช้การฝึกอบรมที่เรียกว่า AdaCache เพื่อเร่ง DiT ของวิดีโอ
แนวคิดหลักของ AdaCache นั้นมาจากข้อเท็จจริงที่ว่า "วิดีโอบางรายการไม่เหมือนกัน" ซึ่งหมายความว่าวิดีโอบางรายการต้องการขั้นตอนการลดสัญญาณรบกวนน้อยกว่าวิดีโออื่น ๆ เพื่อให้ได้คุณภาพที่สมเหตุสมผล จากข้อมูลนี้ วิธีการนี้ไม่เพียงแต่แคชผลลัพธ์การคำนวณระหว่างกระบวนการแพร่กระจายเท่านั้น แต่ยังออกแบบกลยุทธ์การแคชแบบกำหนดเองสำหรับวิดีโอแต่ละรุ่นด้วย จึงเป็นการเพิ่มการแลกเปลี่ยนระหว่างคุณภาพและเวลาแฝงให้สูงสุด
นักวิจัยยังได้แนะนำโครงการ Motion Regularization (MoReg) ซึ่งใช้ข้อมูลวิดีโอใน AdaCache เพื่อควบคุมการจัดสรรทรัพยากรคอมพิวเตอร์ตามเนื้อหาการเคลื่อนไหว เนื่องจากลำดับวิดีโอที่มีพื้นผิวความถี่สูงและเนื้อหาการเคลื่อนไหวจำนวนมากจำเป็นต้องมีขั้นตอนการแพร่กระจายมากขึ้นเพื่อให้ได้คุณภาพที่เหมาะสม MoReg จึงสามารถจัดสรรทรัพยากรการคำนวณได้ดีขึ้น
ผลการทดลองแสดงให้เห็นว่า AdaCache สามารถปรับปรุงความเร็วการอนุมานได้อย่างมาก (เช่น เพิ่มความเร็วได้สูงสุดถึง 4.7 เท่าในการสร้างวิดีโอ Open-Sora720p-2s) โดยไม่ทำให้คุณภาพการสร้างลดลง นอกจากนี้ AdaCache ยังมีความสามารถในการวางลักษณะทั่วไปที่ดี และสามารถนำไปใช้กับวิดีโอ DiT รุ่นต่างๆ ได้ เช่น Open-Sora, Open-Sora-Plan และ Latte AdaCache มีข้อได้เปรียบที่สำคัญทั้งในด้านความเร็วและคุณภาพ เมื่อเทียบกับวิธีการเร่งความเร็วอื่นๆ โดยไม่ต้องฝึกฝน เช่น Δ-DiT, T-GATE และ PAB
การศึกษาผู้ใช้แสดงให้เห็นว่าผู้ใช้ชอบวิดีโอที่สร้างโดย AdaCache มากกว่าวิธีอื่นๆ และพิจารณาว่าคุณภาพจะเทียบเคียงได้กับโมเดลพื้นฐาน การศึกษานี้ยืนยันประสิทธิภาพของ AdaCache และมีส่วนสำคัญในด้านการสร้างวิดีโอที่มีประสิทธิภาพ Meta AI เชื่อว่า AdaCache สามารถใช้กันอย่างแพร่หลายและส่งเสริมการสร้างวิดีโอขนาดยาวที่มีความเที่ยงตรงสูงให้เป็นที่นิยม
บทความ: https://arxiv.org/abs/2411.02397
หน้าแรกของโครงการ:
https://adacache-dit.github.io/
GitHub:
https://github.com/AdaCache-DiT/AdaCache
โดยรวมแล้ว AdaCache มอบวิธีการใหม่และมีประสิทธิภาพในการสร้างวิดีโอที่มีประสิทธิภาพ และการปรับปรุงประสิทธิภาพที่สำคัญและประสบการณ์ผู้ใช้ที่ดีทำให้มีศักยภาพสูงสำหรับการใช้งานในอนาคต บรรณาธิการของ Downcodes เชื่อว่าการเกิดขึ้นของ AdaCache จะส่งเสริมการพัฒนาต่อไปของการสร้างวิดีโอขนาดยาวที่มีความเที่ยงตรงสูง