Pemahaman video panjang selalu menjadi tantangan utama dalam bidang analisis video. Model tradisional tidak efisien dalam memproses video panjang dan sulit untuk mengekstrak informasi penting secara efektif. Makalah ini memperkenalkan teknologi kompresi markup video hierarki yang disebut HiCo, dan sistem "VideoChat-Flash" berdasarkan teknologi ini, yang secara signifikan meningkatkan tugas "jarum di tumpukan jerami" melalui pembelajaran multi-tahap dan meningkatkan kemampuan pemahaman video panjang serta mengurangi secara signifikan persyaratan komputasi. Tim peneliti membuat kumpulan data besar yang berisi 300.000 jam video dan 200 juta kata anotasi untuk pelatihan dan evaluasi model.
Secara khusus, HiCo mengurangi kompleksitas komputasi dengan mengelompokkan video panjang menjadi segmen pendek dan mengompresi informasi yang berlebihan, sekaligus memanfaatkan asosiasi semantik dengan kueri pengguna untuk lebih mengurangi jumlah tag yang diproses. "VideoChat-Flash" mengadopsi skema pembelajaran multi-tahap, pertama menggunakan video pendek untuk penyesuaian yang diawasi, dan kemudian secara bertahap memperkenalkan pelatihan video panjang, dan akhirnya mencapai pemahaman komprehensif tentang korpus berdurasi campuran. Selain itu, tugas “jarum di tumpukan jerami” yang ditingkatkan meningkatkan pemahaman model tentang konteks dan konfigurasi video multi-hop.
Dalam implementasi spesifik pemrosesan video panjang, "VideoChat-Flash" mengadopsi skema pembelajaran multi-tahap dari video pendek ke video panjang. Para peneliti pertama-tama menggunakan video pendek dan anotasi terkait untuk penyempurnaan yang diawasi, dan kemudian secara bertahap memperkenalkan video panjang untuk pelatihan, yang akhirnya mencapai pemahaman komprehensif tentang korpus dengan panjang campuran. Metode ini tidak hanya meningkatkan kemampuan persepsi visual model, namun juga memberikan dukungan data yang kaya untuk pemrosesan video berdurasi panjang. Tim peneliti membuat kumpulan data besar yang berisi 300.000 jam video dan 200 juta kata anotasi.
Selain itu, tugas "jarum di tumpukan jerami" yang lebih baik diusulkan dalam studi untuk konfigurasi video multi-hop. Dengan tolok ukur baru, model tidak hanya perlu menemukan satu gambar target dalam video, namun juga perlu memahami beberapa rangkaian gambar yang saling terkait, sehingga meningkatkan kemampuan model dalam memahami konteks.
Hasil percobaan menunjukkan bahwa metode yang diusulkan mengurangi komputasi sebesar dua kali lipat, terutama berkinerja baik dalam pengujian benchmark video pendek dan panjang, menjadi pemimpin dalam bidang baru pemahaman video pendek. Pada saat yang sama, model ini juga melampaui model open source yang ada dalam pemahaman video panjang, sehingga menunjukkan kemampuan penentuan posisi waktu yang kuat.
Makalah: https://arxiv.org/abs/2501.00574
Menyorot:
Para peneliti mengusulkan teknologi kompresi tag video hierarki HiCo, yang secara signifikan mengurangi kebutuhan komputasi untuk pemrosesan video panjang.
Sistem "VideoChat-Flash" mengadopsi metode pembelajaran multi-tahap dan menggabungkan video pendek dan panjang untuk pelatihan, yang meningkatkan kemampuan pemahaman model.
Hasil percobaan menunjukkan bahwa metode ini mencapai standar kinerja baru dalam beberapa pengujian benchmark dan menjadi model lanjutan di bidang pemrosesan video panjang.
Secara keseluruhan, penelitian ini memberikan solusi baru untuk pemahaman video panjang yang efisien. Teknologi HiCo dan sistem VideoChat-Flash telah mencapai terobosan signifikan dalam efisiensi komputasi dan kinerja model, meletakkan dasar bagi aplikasi analisis video panjang di masa depan. Hasil penelitian memiliki signifikansi teoretis dan nilai penerapan praktis yang penting.