Artikel ini memperkenalkan model Video ReCap, sebuah teknologi pembuatan subtitle video sumber terbuka yang mampu menghasilkan subtitle video hierarki yang mencakup durasi video mulai dari 1 detik hingga 2 jam. Model ini mengadopsi arsitektur bahasa video rekursif dan mencakup tiga modul inti: encoder video, penyelarasan bahasa video, dan decoder teks rekursif. Model ini dapat memahami konten video pada durasi waktu dan tingkat abstraksi yang berbeda serta menghasilkan deskripsi yang akurat dan berlapis-lapis. Arsitektur rekursifnya menunjukkan keunggulan signifikan dalam menghasilkan deskripsi paragraf dan ringkasan video, serta dapat meningkatkan efek tanya jawab video panjang, membawa terobosan baru di bidang pemahaman video dan pembuatan konten.
Model Video ReCap adalah teknologi pembuatan subtitle video open source yang dapat memproses video dari 1 detik hingga 2 jam dan menghasilkan subtitle video berlapis pada level berbeda. Dengan menggunakan arsitektur bahasa video rekursif, termasuk tiga modul: pembuat enkode video, penyelarasan bahasa video, dan dekoder teks rekursif, model ini mampu memahami video pada durasi waktu dan tingkat abstraksi yang berbeda serta menghasilkan subtitel deskripsi video yang akurat dan berlapis-lapis. Eksperimen menunjukkan pentingnya arsitektur rekursif untuk menghasilkan deskripsi segmen dan ringkasan video. Selain itu, subtitle video hierarki yang dihasilkan oleh model ini dapat secara signifikan meningkatkan efek tanya jawab video panjang berdasarkan kumpulan data EgoSchema.Secara keseluruhan, model Video ReCap menunjukkan potensi besar dalam pemahaman dan penerapan video dengan kemampuan pembuatan subtitle yang efisien dan struktur hierarki, memberikan arahan baru dan dukungan teknis untuk penelitian dan pengembangan di bidang terkait. Fitur open sourcenya juga memudahkan lebih banyak peneliti dan pengembang untuk berpartisipasi dan bersama-sama mempromosikan kemajuan dan peningkatan teknologi ini.