การทำความเข้าใจวิดีโอที่ยาวนานนั้นเป็นความท้าทายที่สำคัญในด้านการวิเคราะห์วิดีโอ บทความนี้แนะนำเทคโนโลยีการบีบอัดฉลากวิดีโอแบบลำดับชั้นที่เรียกว่า HICO และระบบ "Videochat-Flash" บนพื้นฐานของเทคโนโลยี . ความสามารถในการทำความเข้าใจวิดีโอที่ยาวนานและลดความต้องการด้านคอมพิวเตอร์อย่างมาก ทีมวิจัยได้สร้างชุดข้อมูลขนาดใหญ่ที่มีวิดีโอ 300,000 ชั่วโมงและ 200 ล้านคำสำหรับการฝึกอบรมแบบจำลองและการประเมินผล
โดยเฉพาะ HICO ลดความซับซ้อนในการคำนวณโดยการแบ่งวิดีโอยาวออกเป็นชิ้นส่วนสั้น ๆ และบีบอัดข้อมูลที่ซ้ำซ้อน "Videochat-Flash" ใช้โซลูชันการเรียนรู้หลายขั้นตอนก่อนอื่นใช้วิดีโอสั้น ๆ เพื่อใช้วิดีโอสั้น ๆ เพื่อปรับแต่งอย่างละเอียดจากนั้นค่อยๆแนะนำการฝึกอบรมวิดีโอยาว ๆ เพื่อตระหนักถึงความเข้าใจที่ครอบคลุมเกี่ยวกับคอร์ปัสที่มีความยาวผสม นอกจากนี้งาน "เข็มในกองหญ้าแห้ง" ที่ได้รับการปรับปรุงช่วยเพิ่มความสามารถของโมเดลในการทำความเข้าใจบริบทและการกำหนดค่าวิดีโอแบบหลายจุด
ในการใช้งานเฉพาะของการประมวลผลวิดีโอยาว "Videochat-Flash" ใช้วิดีโอสั้น ๆ หลายขั้นตอนกับโซลูชันการเรียนรู้วิดีโอยาว นักวิจัยใช้วิดีโอสั้น ๆ และคำอธิบายประกอบที่สอดคล้องกันเป็นครั้งแรกเพื่อให้การกำกับดูแลและการปรับแต่งที่ดีจากนั้นค่อยๆแนะนำวิดีโอยาวสำหรับการฝึกอบรมและในที่สุดก็ตระหนักถึงความเข้าใจที่ครอบคลุมเกี่ยวกับคลังข้อมูลความยาวผสม วิธีนี้ไม่เพียง แต่ปรับปรุงความสามารถในการรับรู้ด้วยภาพของแบบจำลอง แต่ยังให้การสนับสนุนข้อมูลที่หลากหลายสำหรับการประมวลผลวิดีโอยาว ๆ
นอกจากนี้ยังมีการเสนอภารกิจ "เข็มในกองหญ้าแห้ง" ที่ได้รับการเสนอในการศึกษาสำหรับการกำหนดค่าวิดีโอหลายกระโดด ผ่านเกณฑ์มาตรฐานใหม่โมเดลไม่เพียง แต่ต้องการค้นหาภาพเป้าหมายเดียวในวิดีโอ แต่ยังเข้าใจลำดับภาพที่เชื่อมต่อกันหลายรายการซึ่งจะช่วยปรับปรุงความสามารถของโมเดลในการทำความเข้าใจบริบท
ผลการทดลองแสดงให้เห็นว่าวิธีการที่นำเสนอได้ลดคำสั่งสองคำสั่งในการคำนวณโดยเฉพาะอย่างยิ่งในการทดสอบมาตรฐานของวิดีโอสั้น ๆ และวิดีโอยาวกลายเป็นผู้นำของช่องทำความเข้าใจวิดีโอสั้น ๆ ใหม่ ในขณะเดียวกันรุ่นนี้ยังเกินกว่าโมเดลโอเพนซอร์สที่มีอยู่ในแง่ของการทำความเข้าใจวิดีโอที่ยาวนานซึ่งแสดงความสามารถในการกำหนดเวลาที่แข็งแกร่ง
วิทยานิพนธ์: https://arxiv.org/abs/2501.00574
คะแนน:
นักวิจัยได้เสนอ Hico Hico ซึ่งเป็นเทคโนโลยีการบีบอัดฉลากวิดีโอแบบลำดับชั้นซึ่งช่วยลดความต้องการด้านคอมพิวเตอร์ของการประมวลผลวิดีโอที่ยาวนาน
ระบบ "Videachat-Flash" ใช้วิธีการเรียนรู้แบบหลายขั้นตอนรวมกับวิดีโอสั้น ๆ และวิดีโอยาวสำหรับการฝึกอบรมเพื่อเพิ่มความสามารถในการทำความเข้าใจของโมเดล
ผลการทดลองแสดงให้เห็นว่าวิธีนี้มีมาตรฐานประสิทธิภาพใหม่ในการทดสอบเกณฑ์มาตรฐานหลายแบบและได้กลายเป็นรูปแบบขั้นสูงในด้านการประมวลผลวิดีโอที่ยาวนาน
โดยรวมแล้วการวิจัยนี้เป็นโซลูชั่นใหม่สำหรับการทำความเข้าใจวิดีโอที่มีประสิทธิภาพสูง ผลการวิจัยมีความสำคัญทางทฤษฎีที่สำคัญและมูลค่าการใช้งานจริง