[Halaman Proyek] [ Makalah arXiv] [ Kumpulan Data] [? Papan Peringkat] [? Papan Peringkat Huggingface]
LVBench adalah tolok ukur yang dirancang untuk mengevaluasi dan meningkatkan kemampuan model multimodal dalam memahami dan mengekstraksi informasi dari video berdurasi panjang hingga dua jam.
2024.08.2
Kami menyiapkan Papan Peringkat LVBench di Huggingface Spaces! Periksa di Papan Peringkat.
2024.06.11
Kami merilis LVBench, tolok ukur baru untuk pemahaman video panjang!
LVBench adalah tolok ukur yang dirancang untuk mengevaluasi kemampuan model dalam memahami video berdurasi panjang. Kami mengumpulkan data video panjang yang ekstensif dari sumber publik, yang diberi anotasi melalui gabungan upaya manual dan bantuan model. Tolok ukur kami memberikan landasan yang kuat untuk menguji model dalam konteks temporal yang diperluas, memastikan penilaian berkualitas tinggi melalui anotasi manusia yang cermat dan kontrol kualitas multi-tahap.
Kemampuan Inti : Enam kemampuan inti untuk pemahaman video panjang, memungkinkan pembuatan pertanyaan yang kompleks dan menantang untuk evaluasi model yang komprehensif.
Beragam Data : Beragam data video berdurasi panjang, rata-rata lima kali lebih panjang dibandingkan kumpulan data terpanjang yang ada, mencakup berbagai kategori.
Anotasi Berkualitas Tinggi : Tolok ukur yang andal dengan anotasi manusia yang cermat dan proses kendali mutu multi-tahap.
Kumpulan data kami berada di bawah lisensi CC-BY-NC-SA-4.0.
LVBench hanya digunakan untuk penelitian akademis. Penggunaan komersial dalam bentuk apapun dilarang. Kami tidak memiliki hak cipta atas file video mentah apa pun.
Jika ada pelanggaran di LVBench, silakan hubungi [email protected] atau langsung ajukan masalah, dan kami akan segera menghapusnya.
Instal video2dataset terlebih dahulu:
pip instal kumpulan data video2 pip uninstall mesin transformator
Maka Anda harus mengunduh video_info.meta.jsonl
dari Huggingface dan meletakkannya di direktori data
.
Setiap entri dalam file video_info.meta.jsonl
memiliki bidang kunci yang sesuai dengan ID video YouTube. Pengguna dapat mengunduh video terkait menggunakan ID ini. Alternatifnya, pengguna dapat menggunakan skrip unduhan yang kami sediakan, download.sh, untuk mengunduh:
skrip CD unduhan bash.sh
Setelah eksekusi, file video akan disimpan di direktori script/videos
.
instalasi pip -e .
(Catatan: jika Anda ingin mencoba evaluasi dengan cepat, Anda dapat menggunakan scripts/construct_random_answers.py
untuk menyiapkan file jawaban acak.)
skrip CD python test_acc.py
Setelah eksekusi, Anda akan mendapatkan file hasil evaluasi result.json
di direktori scripts
. Anda dapat mengirimkan hasilnya ke papan peringkat.
Perbandingan Model:
Perbandingan Tolok Ukur:
Model vs Manusia:
Distribusi Jawaban:
Jika Anda merasa karya kami bermanfaat untuk penelitian Anda, mohon pertimbangkan untuk mengutip karya kami.
@misc{wang2024lvbench, title={LVBench: Tolok Ukur Pemahaman Video Panjang yang Ekstrim}, author={Weihan Wang dan Zehai He dan Wenyi Hong dan Yean Cheng dan Xiaohan Zhang dan Ji Qi dan Shiyu Huang dan Bin Xu dan Yuxiao Dong dan Ming Ding dan Jie Tang}, year={2024}, eprint={2406.08035}, archivePrefix ={arXiv}, Kelas utama={cs.CV}}