บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Zhipu AI เพิ่งประกาศการอัปเกรดโอเพ่นซอร์สของโมเดล CogVLM2-Video โมเดลนี้ได้สร้างความก้าวหน้าครั้งสำคัญในด้านความเข้าใจเกี่ยวกับวิดีโอ โดยแก้ไขข้อบกพร่องของโมเดลที่มีอยู่ในการประมวลผลข้อมูลชั่วคราวได้อย่างมีประสิทธิภาพ ด้วยการแนะนำภาพวิดีโอแบบหลายเฟรมและข้อมูลการประทับเวลา และการใช้วิธีการสร้างข้อมูลตำแหน่งเวลาอัตโนมัติ CogVLM2-Video แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการสร้างคำบรรยายวิดีโอและการวางตำแหน่งเวลา ซึ่งเป็นเครื่องมือที่ทรงพลังสำหรับงานต่างๆ เช่น การสร้างวิดีโอและการสรุป โมเดลดังกล่าวได้รับผลลัพธ์ที่ล้ำสมัยในเกณฑ์มาตรฐานการทำความเข้าใจวิดีโอสาธารณะ และกระบวนการสร้างข้อมูลอัตโนมัติที่มีประสิทธิภาพยังช่วยลดต้นทุนในการฝึกโมเดลอีกด้วย
Zhipu AI ประกาศการอัปเกรดโอเพ่นซอร์สของโมเดล CogVLM2-Video ซึ่งเป็นโมเดลที่มีความก้าวหน้าอย่างมากในด้านความเข้าใจเกี่ยวกับวิดีโอ CogVLM2-Video แก้ไขข้อจำกัดของโมเดลความเข้าใจวิดีโอที่มีอยู่ในการจัดการกับการสูญเสียข้อมูลชั่วคราวโดยการแนะนำภาพวิดีโอแบบหลายเฟรมและการประทับเวลาเป็นอินพุตตัวเข้ารหัส แบบจำลองนี้ใช้วิธีการสร้างข้อมูลการระบุตำแหน่งเวลาอัตโนมัติเพื่อสร้างข้อมูลคำถามและคำตอบเกี่ยวกับเวลาของวิดีโอจำนวน 30,000 รายการ ดังนั้นจึงเป็นการฝึกแบบจำลองที่ได้รับประสิทธิภาพล่าสุดในเกณฑ์มาตรฐานการทำความเข้าใจวิดีโอสาธารณะ CogVLM2-Video เป็นเลิศในการสร้างคำบรรยายวิดีโอและการวางตำแหน่งชั่วคราว โดยมอบเครื่องมืออันทรงพลังสำหรับงานต่างๆ เช่น การสร้างและการสรุปวิดีโอ
CogVLM2-Video แยกเฟรมออกจากวิดีโออินพุตและใส่คำอธิบายประกอบข้อมูลการประทับเวลา เพื่อให้โมเดลภาษาสามารถทราบเวลาที่สอดคล้องกันของแต่ละเฟรมได้อย่างแม่นยำ ดังนั้นจึงบรรลุการวางตำแหน่งเวลาตลอดจนคำถามและคำตอบที่เกี่ยวข้อง
สำหรับการฝึกอบรมขนาดใหญ่ กระบวนการสร้างข้อมูลคำถามและคำตอบแบบวิดีโออัตโนมัติได้รับการพัฒนา ซึ่งช่วยลดต้นทุนคำอธิบายประกอบและปรับปรุงคุณภาพข้อมูลผ่านการใช้แบบจำลองการทำความเข้าใจรูปภาพและแบบจำลองภาษาขนาดใหญ่รวมกัน ชุดข้อมูลคำถามและคำตอบ Temporal Grounding (TQA) ที่สร้างขึ้นในท้ายที่สุดประกอบด้วยบันทึก 30,000 รายการ ซึ่งให้ข้อมูลตำแหน่งชั่วคราวที่สมบูรณ์สำหรับการฝึกโมเดล
CogVLM2-Video แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในชุดการประเมินสาธารณะหลายชุด รวมถึงประสิทธิภาพที่ยอดเยี่ยมในตัวบ่งชี้การประเมินเชิงปริมาณ เช่น VideoChatGPT-Bench และ Zero-shot QA และ MVBench
รหัส: https://github.com/THUDM/CogVLM2
เว็บไซต์โครงการ: https://cogvlm2-video.github.io
ทดลองใช้ออนไลน์: http://36.103.203.44:7868/
โดยรวมแล้ว การอัพเกรดโอเพ่นซอร์สของโมเดล CogVLM2-Video นำมาซึ่งความเป็นไปได้ใหม่ๆ ในด้านความเข้าใจเกี่ยวกับวิดีโอ และประสิทธิภาพและความแม่นยำของโมเดลจะส่งเสริมการพัฒนาเทคโนโลยีที่เกี่ยวข้องต่อไป นักพัฒนาที่สนใจสามารถเยี่ยมชมลิงค์ที่ให้ไว้เพื่อดูและทดลองใช้ บรรณาธิการของ Downcodes รอคอยที่จะมีแอปพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นจากรุ่นนี้!