Dengan pertumbuhan volume data video yang eksplosif, cara menggunakan informasi video secara efektif untuk mendapatkan pengetahuan dan menjawab pertanyaan telah menjadi pusat penelitian. Sistem tradisional retrieval-augmented generation (RAG) sebagian besar mengandalkan informasi teks dan sulit untuk sepenuhnya mengeksploitasi kekayaan informasi multi-modal yang terkandung dalam video. Artikel ini memperkenalkan kerangka kerja baru yang disebut VideoRAG yang mampu mengambil video yang relevan dengan kueri secara dinamis dan secara efektif mengintegrasikan informasi visual dan tekstual untuk menghasilkan jawaban yang lebih akurat dan informatif. Kerangka kerja ini menggunakan Large Video Language Models (LVLMs) untuk mencapai integrasi data multi-modal dan memproses video tanpa subtitle melalui teknologi pengenalan suara otomatis, sehingga secara signifikan meningkatkan efisiensi pengambilan dan pembuatan.
Dengan pesatnya perkembangan teknologi video, video telah menjadi alat penting untuk pengambilan informasi dan pemahaman konsep yang kompleks. Video menggabungkan data visual, temporal, dan kontekstual untuk memberikan representasi multimodal di luar gambar dan teks statis. Saat ini, dengan semakin banyaknya platform berbagi video dan semakin banyaknya video pendidikan dan informasi, pemanfaatan video sebagai sumber pengetahuan memberikan peluang yang belum pernah ada sebelumnya untuk menyelesaikan pertanyaan yang memerlukan konteks terperinci, pemahaman spasial, dan demonstrasi proses.
Namun, sistem retrieval-augmented generation (RAG) yang ada sering kali mengabaikan potensi penuh dari data video. Sistem ini sering kali mengandalkan informasi tekstual dan terkadang menggunakan gambar statis untuk mendukung respons kueri, namun gagal menangkap dinamika visual dan isyarat multimodal yang terdapat dalam video, yang sangat penting untuk tugas kompleks. Pendekatan tradisional telah menentukan terlebih dahulu video terkait kueri tanpa pengambilan atau mengonversi video ke dalam format teks, sehingga kehilangan konteks visual dan dinamika temporal yang penting, sehingga membatasi kemampuan untuk memberikan jawaban yang akurat dan informatif.
Untuk mengatasi masalah ini, tim peneliti dari Korea Advanced Institute of Science and Technology (KaIST) dan DeepAuto.ai mengusulkan kerangka kerja baru-VideoRAG. Kerangka kerja ini mampu secara dinamis mengambil video yang relevan dengan kueri dan mengintegrasikan informasi visual dan tekstual ke dalam proses pembuatannya. VideoRAG memanfaatkan model bahasa video skala besar (LVLM) yang canggih untuk mencapai integrasi data multi-modal yang mulus, memastikan bahwa video yang diambil konsisten secara kontekstual dengan kueri pengguna dan mempertahankan kekayaan temporal konten video.
Alur kerja VideoRAG dibagi menjadi dua tahap utama: pengambilan dan pembuatan. Selama fase pengambilan, kerangka kerja mengidentifikasi video yang serupa dengan fitur visual dan tekstualnya melalui kueri.
Pada tahap pembuatan, teknologi pengenalan suara otomatis digunakan untuk menghasilkan data teks tambahan untuk video tanpa subtitle, sehingga memastikan bahwa pembangkitan respons untuk semua video dapat memberikan kontribusi informasi secara efektif. Video relevan yang diambil selanjutnya dimasukkan ke dalam modul pembangkitan, yang mengintegrasikan data multi-modal seperti bingkai video, subtitel, dan teks kueri, dan memprosesnya dengan bantuan LVLM untuk menghasilkan respons yang panjang, kaya, akurat, dan sesuai konteks.
VideoRAG melakukan eksperimen ekstensif pada kumpulan data seperti WikiHowQA dan HowTo100M, dan hasilnya menunjukkan bahwa kualitas responsnya jauh lebih baik daripada metode tradisional. Kerangka kerja baru ini tidak hanya meningkatkan kemampuan sistem pembangkitan peningkatan pengambilan, namun juga menetapkan standar baru untuk sistem pengambilan multimodal di masa depan.
Makalah: https://arxiv.org/abs/2501.05874
Menyorot:
**Kerangka kerja baru**: VideoRAG secara dinamis mengambil video yang relevan dan menggabungkan informasi visual dan tekstual untuk meningkatkan efek pembuatan.
**Verifikasi eksperimental**: Diuji pada beberapa kumpulan data, menunjukkan kualitas respons yang jauh lebih baik dibandingkan metode RAG tradisional.
**Inovasi Teknis**: Menggunakan model bahasa video berskala besar, VideoRAG membuka babak baru dalam integrasi data multimodal.
Secara keseluruhan, kerangka VideoRAG memberikan solusi baru untuk tugas peningkatan pengambilan berbasis video. Terobosannya dalam integrasi data multi-modal dan pengambilan informasi memberikan informasi penting untuk sistem pengambilan informasi yang lebih cerdas dan akurat di masa depan. Hasil penelitiannya diharapkan dapat dimanfaatkan secara luas dalam bidang pendidikan, kedokteran dan bidang lainnya.