Editor Downcodes mengetahui bahwa Zhipu AI baru-baru ini mengumumkan peningkatan open source model CogVLM2-Video-nya. Model ini telah membuat terobosan besar dalam bidang pemahaman video, secara efektif mengatasi kekurangan model yang ada dalam memproses informasi temporal. Dengan memperkenalkan gambar video multi-frame dan informasi stempel waktu, serta memanfaatkan metode konstruksi data pemosisian waktu otomatis, CogVLM2-Video menunjukkan kinerja luar biasa dalam pembuatan subtitle video dan penentuan posisi waktu, menyediakan alat yang ampuh untuk tugas-tugas seperti pembuatan dan ringkasan video. Model ini telah mencapai hasil mutakhir dalam tolok ukur pemahaman video publik, dan proses pembuatan data otomatis yang efisien juga mengurangi biaya pelatihan model.
Zhipu AI mengumumkan peningkatan open source pada model CogVLM2-Video, model yang telah membuat kemajuan signifikan dalam bidang pemahaman video. CogVLM2-Video memecahkan keterbatasan model pemahaman video yang ada dalam menangani hilangnya informasi temporal dengan memperkenalkan gambar video multi-frame dan stempel waktu sebagai input encoder. Model ini menggunakan metode konstruksi data pemosisian waktu otomatis untuk menghasilkan 30.000 data tanya jawab video terkait waktu, sehingga melatih model yang mencapai performa terbaru pada tolok ukur pemahaman video publik. CogVLM2-Video unggul dalam pembuatan subtitle video dan penentuan posisi temporal, menyediakan alat yang ampuh untuk tugas-tugas seperti pembuatan dan ringkasan video.
CogVLM2-Video mengekstrak bingkai dari video masukan dan memberi anotasi pada informasi stempel waktu, sehingga model bahasa dapat secara akurat mengetahui waktu yang sesuai dari setiap bingkai, sehingga mencapai pemosisian waktu dan tanya jawab terkait.
Untuk pelatihan skala besar, proses pembuatan data tanya jawab video otomatis dikembangkan, yang mengurangi biaya anotasi dan meningkatkan kualitas data melalui kombinasi penggunaan model pemahaman gambar dan model bahasa besar. Kumpulan data Temporal Grounding Question and Answer (TQA) yang akhirnya dibuat berisi 30.000 catatan, menyediakan data posisi temporal yang kaya untuk pelatihan model.
CogVLM2-Video telah menunjukkan kinerja luar biasa pada beberapa rangkaian evaluasi publik, termasuk kinerja luar biasa pada indikator evaluasi kuantitatif seperti VideoChatGPT-Bench dan Zero-shot QA dan MVBench.
Kode: https://github.com/THUDM/CogVLM2
Situs web proyek: https://cogvlm2-video.github.io
Uji coba daring: http://36.103.203.44:7868/
Secara keseluruhan, peningkatan open source model CogVLM2-Video membawa kemungkinan baru dalam bidang pemahaman video, dan efisiensi serta akurasinya akan mendorong pengembangan lebih lanjut dari teknologi terkait. Pengembang yang tertarik dapat mengunjungi tautan yang disediakan untuk melihat dan mencobanya. Editor Downcodes menantikan aplikasi yang lebih inovatif berdasarkan model ini!