[หน้าโครงการ] [ arXiv Paper] [ ชุดข้อมูล][? ลีดเดอร์บอร์ด][? ลีดเดอร์บอร์ดฮักกิ้งเฟซ]
LVBench เป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินและเพิ่มความสามารถของโมเดลหลายรูปแบบในการทำความเข้าใจและดึงข้อมูลจากวิดีโอขนาดยาวในระยะเวลาสูงสุดสองชั่วโมง
2024.08.2
เราตั้งค่ากระดานผู้นำ LVBench บน Huggingface Spaces! ตรวจสอบบนลีดเดอร์บอร์ด
2024.06.11
เราเปิดตัว LVBench ซึ่งเป็นเกณฑ์มาตรฐานใหม่สำหรับความเข้าใจวิดีโอขนาดยาว!
LVBench เป็นเกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินความสามารถของโมเดลในการทำความเข้าใจวิดีโอขนาดยาว เรารวบรวมข้อมูลวิดีโอขนาดยาวจำนวนมากจากแหล่งข้อมูลสาธารณะ โดยมีการใส่คำอธิบายประกอบโดยใช้ความพยายามด้วยตนเองและความช่วยเหลือเกี่ยวกับโมเดล เกณฑ์มาตรฐานของเราเป็นรากฐานที่แข็งแกร่งสำหรับการทดสอบแบบจำลองในบริบทชั่วคราวที่ขยายออกไป เพื่อให้มั่นใจว่ามีการประเมินคุณภาพสูงผ่านคำอธิบายประกอบของมนุษย์ที่พิถีพิถันและการควบคุมคุณภาพแบบหลายขั้นตอน
ความสามารถหลัก : ความสามารถหลัก 6 ประการสำหรับการทำความเข้าใจวิดีโอขนาดยาว ช่วยให้สามารถสร้างคำถามที่ซับซ้อนและท้าทายสำหรับการประเมินแบบจำลองที่ครอบคลุม
ข้อมูลที่หลากหลาย : ข้อมูลวิดีโอขนาดยาวที่หลากหลาย โดยเฉลี่ยนานกว่าชุดข้อมูลที่ยาวที่สุดที่มีอยู่ถึงห้าเท่า ครอบคลุมหมวดหมู่ต่างๆ
คำอธิบายประกอบคุณภาพสูง : เกณฑ์มาตรฐานที่เชื่อถือได้พร้อมคำอธิบายประกอบของมนุษย์ที่พิถีพิถันและกระบวนการควบคุมคุณภาพแบบหลายขั้นตอน
ชุดข้อมูลของเราอยู่ภายใต้ใบอนุญาต CC-BY-NC-SA-4.0
LVBench ใช้สำหรับการวิจัยทางวิชาการเท่านั้น ห้ามนำไปใช้ในเชิงพาณิชย์ในรูปแบบใดๆ ก็ตาม เราไม่ได้เป็นเจ้าของลิขสิทธิ์ไฟล์วิดีโอดิบใด ๆ
หากมีการละเมิดใด ๆ ใน LVBench โปรดติดต่อ [email protected] หรือแจ้งปัญหาโดยตรง และเราจะลบออกทันที
ติดตั้ง video2dataset ก่อน:
pip ติดตั้งชุดข้อมูล video2 pip ถอนการติดตั้งเครื่องยนต์หม้อแปลง
จากนั้นคุณควรดาวน์โหลด video_info.meta.jsonl
จาก Huggingface และวางไว้ในไดเร็กทอรี data
แต่ละรายการในไฟล์ video_info.meta.jsonl
มีช่องคีย์ที่สอดคล้องกับรหัสวิดีโอ YouTube ผู้ใช้สามารถดาวน์โหลดวิดีโอที่เกี่ยวข้องได้โดยใช้ ID นี้ หรืออีกทางหนึ่ง ผู้ใช้สามารถใช้สคริปต์ดาวน์โหลดที่เราให้ไว้ download.sh เพื่อดาวน์โหลด:
สคริปต์ซีดี ทุบตี download.sh
หลังจากดำเนินการ ไฟล์วิดีโอจะถูกจัดเก็บไว้ในไดเรกทอรี script/videos
pip ติดตั้ง -e
(หมายเหตุ: หากคุณต้องการลองประเมินอย่างรวดเร็ว คุณสามารถใช้ scripts/construct_random_answers.py
เพื่อเตรียมไฟล์คำตอบแบบสุ่ม)
สคริปต์ซีดี หลาม test_acc.py
หลังจากดำเนินการ คุณจะได้รับไฟล์ผลการประเมิน result.json
ในไดเร็กทอรี scripts
คุณสามารถส่งผลการแข่งขันไปยังลีดเดอร์บอร์ดได้
การเปรียบเทียบรุ่น:
การเปรียบเทียบเกณฑ์มาตรฐาน:
แบบจำลองเทียบกับมนุษย์:
การกระจายคำตอบ:
หากคุณพบว่างานของเรามีประโยชน์สำหรับการวิจัยของคุณ โปรดพิจารณาอ้างอิงงานของเรา
@misc{wang2024lvbench, title={LVBench: เกณฑ์มาตรฐานการทำความเข้าใจวิดีโอที่ยาวมาก}, author={Weihan Wang และ Zehai He และ Wenyi Hong และ Yean Cheng และ Xiaohan Zhang และ Ji Qi และ Shiyu Huang และ Bin Xu และ Yuxiao Dong และ Ming Ding และ Jie Tang}, ปี={2024}, eprint={2406.08035}, archivePrefix ={arXiv}, primaryClass={cs.CV}}