Meta ได้ร่วมมือกับ King Abdullah University of Technology (KAUST) ในซาอุดิอาระเบียเพื่อเปิดตัวโมเดลการแพร่กระจายวิดีโอชุดใหม่ที่เรียกว่า Mardini โมเดลนี้สามารถทำงานที่หลากหลายของงานการสร้างวิดีโอได้อย่างมีประสิทธิภาพรวมถึงการแก้ไขวิดีโอการแปลงภาพเป็นวิดีโอและการขยายวิดีโอทำให้กระบวนการสร้างวิดีโอคุณภาพสูงง่ายขึ้นอย่างมาก Mardini ใช้การผสมผสานระหว่างรูปแบบการวางแผนและแบบจำลองการกำเนิดเพื่อสร้างวิดีโอคุณภาพสูงโดยมีขั้นตอนน้อยลงด้วยวิธีการหน้ากาก Autoregression (MAR) และกระบวนการแพร่กระจายแสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในประสิทธิภาพและประสิทธิภาพ
จากปีที่แล้ว Meta ใช้ความพยายามเพิ่มเติมในสาขาการสร้างวิดีโอ AI ก่อนหน้านี้มันเปิดตัวโมเดลข้อความถึงวิดีโอและการแก้ไขเช่นวิดีโอ EMU และ EMU Edit ในปีนี้ Gen Movie Editor Advanced Editor ก็เปิดตัวเช่นกัน นี่แสดงให้เห็นว่า Meta มุ่งมั่นที่จะจัดหาเครื่องมือที่มีประสิทธิภาพให้กับผู้สร้างวิดีโอ
พลังของ Mardini คือมันสามารถสร้างวิดีโอตามเฟรมที่สวมหน้ากากจำนวนเท่าใดก็ได้และรองรับงานสร้างที่หลากหลายเช่นการแก้ไขวิดีโอการแปลงภาพเป็นวิดีโอและการขยายวิดีโอ
ภาพเป็นผลลัพธ์วิดีโอในหมู่พวกเขาแอปพลิเคชันหลักของ Mardini คือการสร้างภาพผ่านวิดีโอ คุณลักษณะนี้แสดงให้เห็นโดยใช้เฟรมอ้างอิงที่วางไว้ตรงกลางเป็นอินพุตแบบมีเงื่อนไขและสร้างเฟรมเพิ่มเติม 16 เฟรม ในตัวอย่างวิดีโอที่สร้างขึ้นอย่างเป็นทางการมีการแสดงผล 17 เฟรมที่ 8FPS สำหรับวิดีโอ 2 วินาทีที่ราบรื่น
ผลการขยายวิดีโอMardini ยังช่วยให้คุณสามารถขยายวิดีโอของคุณได้โดยการปรับวิดีโอที่มีอยู่เป็นระยะเวลานาน เราเพิ่มเฟรมใหม่ 12 เฟรมในแต่ละลำดับโดยการสร้างส่วนขยาย 2 วินาทีจากวิดีโออ้างอิง 5 เฟรม
ผลการแก้ไขวิดีโอMardini ใช้การแก้ไขวิดีโอโดยการสร้างเฟรมกลางโดยใช้เฟรมแรกและสุดท้ายเป็นสัญญาณการปรับ เมื่อเฟรมขอบเขตเหล่านี้เหมือนกัน Mardini สามารถสร้างวิดีโอวนรอบที่ไร้รอยต่อได้
วิธีการทำงานของ Mardini นั้นน่าสนใจมาก ใช้เทคโนโลยีการสร้างวิดีโอขั้นสูงและมีประสิทธิภาพส่วนใหญ่ประกอบด้วยสองส่วน: รูปแบบการวางแผนและแบบจำลองการกำเนิด ขั้นแรกรูปแบบการวางแผนใช้วิธี Mask AutoreGression (MAR) เพื่อตีความเฟรมอินพุตความละเอียดต่ำสร้างสัญญาณคำแนะนำสำหรับเฟรมที่ต้องสร้าง แบบจำลองการกำเนิดที่มีน้ำหนักเบาจะสร้างเฟรมที่มีความละเอียดสูงผ่านกระบวนการแพร่กระจายเพื่อให้มั่นใจว่าวิดีโอสุดท้ายนั้นราบรื่นและมองเห็นได้ดี
Mardini อ้างว่าได้รับการฝึกฝนตั้งแต่เริ่มต้นโดยใช้ข้อมูลวิดีโอที่ไม่มีป้ายกำกับ นี่เป็นเพราะมันใช้กลยุทธ์การฝึกอบรมแบบก้าวหน้าซึ่งช่วยให้แบบจำลองสามารถรับมือกับการกำหนดค่าเฟรมที่แตกต่างกันได้ดีขึ้นโดยการปรับวิธีการปิดบังเฟรมในระหว่างการฝึกอบรม
คุณสมบัติที่โดดเด่นของ Mardini คือความยืดหยุ่นและประสิทธิภาพ มันไม่เพียง แต่ทรงพลัง แต่ยังมีประสิทธิภาพเหมาะสำหรับงานที่มีขนาดใหญ่ขึ้น รุ่นนี้สามารถจัดการกับงานที่หลากหลายเช่นการแก้ไขวิดีโอการสร้างภาพผ่านวิดีโอและการขยายวิดีโอไม่ว่าจะเป็นการปรับคลิปวิดีโอที่มีอยู่ให้เรียบหรือสร้างลำดับที่สมบูรณ์ตั้งแต่เริ่มต้น
ในแง่ของประสิทธิภาพ Mardini กำหนดมาตรฐานใหม่เพื่อสร้างวิดีโอคุณภาพสูงโดยมีขั้นตอนน้อยลงซึ่งทำให้ต้นทุนและเวลาฉลาดกว่าทางเลือกที่ซับซ้อนมากขึ้น “ การวิจัยของเราแสดงให้เห็นว่ากลยุทธ์การสร้างแบบจำลองของเราแสดงให้เห็นถึงความสามารถในการแข่งขันในการแก้ไขและการวัดภาพแอนิเมชั่นที่หลากหลายในขณะที่ลดความต้องการการคำนวณที่เครื่องชั่งพารามิเตอร์ที่เทียบเคียงได้” รายงานการวิจัยอย่างเป็นทางการกล่าว
ทางเข้าโครงการ: https://mardini-vidgen.github.io/
ประเด็นสำคัญ:
Mardini เป็นรุ่นรุ่นวิดีโอรุ่นใหม่ที่เปิดตัวโดย Meta และ Kaust ซึ่งสามารถทำงานได้อย่างง่ายดายในการสร้างวิดีโอที่หลากหลาย
โมเดลนี้ได้รับการแก้ไขวิดีโอที่มีประสิทธิภาพและการสร้างภาพผ่านวิดีโอผ่านการรวมกันของการวางแผนและโมเดลการสร้าง
Mardini สร้างวิดีโอคุณภาพสูงโดยมีขั้นตอนน้อยลงปรับปรุงความยืดหยุ่นและประสิทธิภาพของการสร้างอย่างมีนัยสำคัญ
ในระยะสั้นการเกิดขึ้นของ Mardini ถือเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการสร้างวิดีโอด้วยประสิทธิภาพที่มีประสิทธิภาพและสถานการณ์แอปพลิเคชันที่ยืดหยุ่นนำความเป็นไปได้ใหม่ ๆ มาสู่สาขาการสร้างวิดีโอ ในอนาคต Mardini อาจมีบทบาทมากขึ้นในการผลิตภาพยนตร์การผลิตภาพเคลื่อนไหวและพื้นที่อื่น ๆ ที่ต้องใช้การสร้างวิดีโอ