Sebuah tim peneliti dari National University of Singapore telah mengembangkan model bahasa besar audio-visual (av-LLM) canggih yang disebut video-SALMONN, yang mampu memahami konten visual, audio, dan ucapan dalam video. Model ini menghubungkan encoder audio dan video terlatih dengan model bahasa besar melalui struktur Q-Former kausal multi-resolusi yang inovatif untuk mencapai pemahaman komprehensif tentang konten video. Terobosan teknologi ini telah mencapai hasil luar biasa dalam berbagai tugas seperti menjawab pertanyaan melalui video, membuka jalan baru bagi penerapan kecerdasan buatan dalam pemahaman dan penalaran video, dan diharapkan dapat diterapkan secara luas di bidang pendidikan, medis, dan bidang lainnya.
Baru-baru ini, Wenyi Yu dan timnya di National University of Singapore mengusulkan teknologi baru bernama video-SALMONN, yang tidak hanya mampu memahami rangkaian bingkai visual, peristiwa audio, dan musik dalam konten suara; Pengenalan teknologi ini menandai langkah penting yang memungkinkan mesin memahami konten video.
Video-SALMONN adalah model bahasa besar audio-visual ujung ke ujung (av-LLM) yang menggabungkan encoder audio dan video terlatih dengan struktur Q-Former (MRC Q-Former) kausal multi-resolusi baru yang terhubung dengan tubuh model bahasa besar. Struktur ini tidak hanya menangkap informasi temporal terperinci yang diperlukan untuk pemahaman ucapan, namun juga memastikan pemrosesan elemen video lainnya secara efisien.
Untuk meningkatkan keseimbangan pemrosesan elemen video yang berbeda dalam model, tim peneliti mengusulkan metode pelatihan khusus, termasuk hilangnya keragaman dan strategi pelatihan hibrid audio dan video yang tidak berpasangan untuk menghindari dominasi bingkai atau modalitas video.
Pada Tolok Ukur Evaluasi Ucapan-Audio-Visual (SAVE) yang baru diperkenalkan, Video-SALMONN mencapai peningkatan akurasi absolut lebih dari 25% pada tugas menjawab pertanyaan video (video-QA), dan mencapai peningkatan akurasi absolut lebih dari 25 % pada tugas menjawab pertanyaan audio dan video yang melibatkan ucapan manusia Peningkatan akurasi absolut lebih dari 30% tercapai. Selain itu, Video-SALMONN menunjukkan pemahaman video yang sangat baik dan kemampuan penalaran pada tugas-tugas yang belum pernah terjadi sebelumnya untuk av-LLM lainnya.
Inti dari video-SALMONN adalah struktur Q-Former multi-resolusi kausal (MRC), yang menyelaraskan fitur input audio dan video yang disinkronkan dan ruang representasi teks pada tiga skala waktu berbeda untuk memenuhi ketergantungan tugas yang berbeda pada kebutuhan elemen video yang berbeda . Selain itu, untuk memperkuat hubungan sebab akibat temporal antara bingkai video yang berurutan, struktur perhatian diri kausal dengan topeng sebab akibat khusus disertakan dalam MRC Q-Former.
Usulan Video-SALMONN tidak hanya menghadirkan alat penelitian baru bagi civitas akademika, namun juga memberikan kemungkinan luas untuk penerapan praktis. Hal ini membuat interaksi antara teknologi dan manusia menjadi lebih alami dan intuitif, sehingga mengurangi kesulitan pengguna, terutama anak-anak dan orang tua, untuk belajar menggunakan teknologi. Pada saat yang sama, hal ini juga berpotensi meningkatkan aksesibilitas teknologi, termasuk bagi penyandang disabilitas gerak.
Usulan video-SALMONN merupakan langkah penting menuju realisasi kecerdasan buatan umum (AGI). Dengan mengintegrasikan masukan ucapan serta masukan audio dan visual non-ucapan yang ada, model tersebut akan memperoleh pemahaman komprehensif tentang interaksi dan lingkungan manusia, sehingga memungkinkan penerapannya pada domain yang lebih luas.
Perkembangan teknologi ini tentunya akan memberikan dampak yang besar terhadap analisis konten video, aplikasi pendidikan, dan peningkatan kualitas hidup masyarakat. Seiring dengan kemajuan teknologi, kami mempunyai alasan untuk percaya bahwa AI di masa depan akan lebih cerdas dan lebih dekat dengan kebutuhan manusia.
Alamat makalah: https://arxiv.org/html/2406.15704v1
Kemajuan terobosan teknologi video-SALMONN menunjukkan bahwa kecerdasan buatan telah mencapai tonggak baru dalam bidang pemahaman video, dan prospek penerapannya yang luas layak untuk dinantikan. Di masa depan, pengembangan berkelanjutan dari teknologi serupa akan semakin mendorong integrasi mendalam antara kecerdasan buatan dan masyarakat manusia.