ด้วยการพัฒนาอย่างรวดเร็วของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ (MLLM) การประมวลผลที่มีประสิทธิภาพของวิดีโอที่มีความยาวเป็นพิเศษได้กลายเป็นประเด็นร้อนในการวิจัยในปัจจุบัน โมเดลที่มีอยู่มักถูก จำกัด ด้วยความยาวบริบทและค่าใช้จ่ายในการคำนวณทำให้ยากที่จะเข้าใจวิดีโอรายชั่วโมงได้อย่างมีประสิทธิภาพ ในการตอบสนองต่อความท้าทายนี้สถาบันวิจัย Zhiyuan และมหาวิทยาลัยหลายแห่งได้เปิดตัว Video-XL ซึ่งเป็นรูปแบบภาษาภาพที่มีความยาวเป็นพิเศษที่ออกแบบมาโดยเฉพาะสำหรับการทำความเข้าใจวิดีโอระดับชั่วโมงที่มีประสิทธิภาพ
ปัจจุบันโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) มีความคืบหน้าอย่างมีนัยสำคัญในด้านความเข้าใจวิดีโอ แต่การจัดการวิดีโอที่ยาวเป็นพิเศษยังคงเป็นสิ่งที่ท้าทาย นี่เป็นเพราะ MLLMS มักจะดิ้นรนเพื่อจัดการเครื่องหมายภาพหลายพันรายการที่เกินความยาวบริบทสูงสุดและได้รับผลกระทบจากการลดทอนข้อมูลที่เกิดจากการรวมเครื่องหมาย ในเวลาเดียวกันแท็กวิดีโอจำนวนมากจะนำค่าใช้จ่ายในการคำนวณสูง
เพื่อแก้ปัญหาเหล่านี้สถาบันวิจัย Zhiyuan ได้เสนอ Video-XL ร่วมกับมหาวิทยาลัยเซี่ยงไฮ้ Jiaotong, มหาวิทยาลัย Renmin แห่งประเทศจีน, มหาวิทยาลัยปักกิ่งและมหาวิทยาลัยปักกิ่งโพสต์และโทรคมนาคมซึ่งเป็นผู้เชี่ยวชาญด้านการทำความเข้าใจวิดีโอระดับชั่วโมงที่มีประสิทธิภาพ รูปแบบภาษา หัวใจสำคัญของ Video-XL อยู่ในเทคโนโลยี“ สรุปบริบทที่เป็นไปได้” ซึ่งใช้ความสามารถในการสร้างแบบจำลองบริบทที่มีอยู่ใน LLM เพื่อบีบอัดการแสดงภาพที่ยาวนานในรูปแบบที่กะทัดรัดมากขึ้น
พูดง่ายๆคือการบีบอัดเนื้อหาวิดีโอให้เป็นรูปแบบที่คล่องตัวมากขึ้นเช่นเดียวกับการจดจ่อกับเนื้อวัวทั้งหมดลงในชามเนื้อวัวซึ่งสะดวกสำหรับแบบจำลองที่จะย่อยและดูดซับ
เทคโนโลยีการบีบอัดนี้ไม่เพียง แต่ปรับปรุงประสิทธิภาพ แต่ยังเก็บข้อมูลสำคัญของวิดีโอได้อย่างมีประสิทธิภาพ คุณควรรู้ว่าวิดีโอยาวมักจะเต็มไปด้วยข้อมูลที่ซ้ำซ้อนมากมายเช่นเดียวกับการผูกเท้าของหญิงชราซึ่งมีความยาวและส่งกลิ่น Video-XL สามารถกำจัดข้อมูลที่ไร้ประโยชน์เหล่านี้ได้อย่างถูกต้องและรักษาเฉพาะสาระสำคัญซึ่งทำให้มั่นใจได้ว่าโมเดลจะไม่สูญเสียทิศทางเมื่อเข้าใจเนื้อหาวิดีโอที่ยาวนาน
Video-XL ไม่เพียง แต่ทรงพลังในทางทฤษฎีเท่านั้น แต่ยังมีความสามารถในทางปฏิบัติที่ทรงพลังมาก Video-XL เป็นผู้นำในการตรวจสอบวิดีโอที่มีความยาวหลายครั้งโดยเฉพาะอย่างยิ่งในการทดสอบ VNBench โดยมีความแม่นยำสูงกว่าวิธีที่ดีที่สุดเกือบ 10%
สิ่งที่น่าประทับใจยิ่งกว่านั้นคือ Video-XL สร้างความสมดุลที่น่าทึ่งระหว่างประสิทธิภาพและประสิทธิภาพมันสามารถประมวลผลวิดีโอ 2048 เฟรมใน GPU 80GB เดียวในขณะที่ยังคงรักษาความแม่นยำเกือบ 95% ในอัตราการประเมิน“ ค้นหาเข็มในกองหญ้า”
Video-XL มีโอกาสในการใช้งานที่กว้างมาก นอกเหนือจากการทำความเข้าใจวิดีโอยาวทั่วไปแล้วมันยังสามารถมีความสามารถในการทำงานบางอย่างเช่นสรุปภาพยนตร์การตรวจสอบการตรวจจับความผิดปกติและการรับรู้การปลูกถ่ายโฆษณา
ซึ่งหมายความว่าคุณไม่ต้องทนต่อพล็อตที่ยาวนานเมื่อดูภาพยนตร์ในอนาคต เหตุการณ์ซึ่งมีประสิทธิภาพมากกว่าการสะกดรอยตามด้วยตนเอง
ที่อยู่โครงการ: https://github.com/vectorspacelab/video-xl
กระดาษ: https://arxiv.org/pdf/2409.14485
ในระยะสั้น Video-XL ได้ทำการพัฒนาความก้าวหน้าในด้านการทำความเข้าใจวิดีโอที่ยาวนานเป็นพิเศษ