Pemahaman video panjang selalu menjadi tantangan di bidang AI, dan model tradisional sulit mengatasi keterbatasan informasi dan sumber daya komputasi yang berlebihan. Artikel ini memperkenalkan teknologi baru yang disebut Goldfish, yang menghasilkan pemrosesan video berdurasi berapa pun secara efektif melalui mekanisme pengambilan yang efisien dan bantuan MiniGPT4-Video. Goldfish tidak hanya dapat mengekstrak klip kunci dan menghasilkan jawaban yang akurat, ia juga telah mencapai hasil terbaik dalam beberapa pengujian benchmark video pendek, yang menunjukkan kinerjanya yang kuat dan prospek penerapan yang luas. Selanjutnya, kita akan mempelajari detail teknis dan efek penerapan praktis Ikan Mas.
Di bidang pemahaman video, model AI tradisional seringkali hanya dapat menangani video pendek, dan tidak mampu menangani konten video berdurasi beberapa jam atau bahkan lebih lama. Hal ini terutama karena model ini menghadapi batasan "kebisingan dan redundansi" serta "memori dan komputasi" saat memproses video berdurasi panjang. Kini, teknologi baru bernama Goldfish mengubah hal itu.
Pintu masuk produk: https://top.aibase.com/tool/goldfish
Ikan mas adalah metode yang dirancang khusus untuk memproses video dengan durasi berapa pun. Ini mengadopsi mekanisme pengambilan yang efisien yang pertama-tama dapat mengekstrak klip video K teratas yang paling relevan dengan instruksi dari video panjang, dan kemudian menghasilkan jawaban akhir berdasarkan klip tersebut. Dengan cara ini, Goldfish dapat secara efisien menangani konten video panjang seperti film atau serial TV.
Untuk mencapai tujuan tersebut, tim Goldfish juga mengembangkan MiniGPT4-Video, sebuah alat yang dapat menghasilkan deskripsi detail untuk klip video. Dengan menggabungkan bingkai video dan subtitle, MiniGPT4-Video dapat secara akurat memahami informasi visual dan tekstual dalam video, sehingga meningkatkan kemampuan memproses video berdurasi panjang.
Selain itu, tim juga mengusulkan TVQA-long, sebuah tes benchmark untuk mengevaluasi kemampuan model dalam memahami video berdurasi panjang. Ikan mas mencapai akurasi 41,78% dalam pengujian ini, melampaui teknik sebelumnya.
Tidak hanya itu, Goldfish juga tampil baik dalam pemahaman video pendek. Dalam berbagai tolok ukur video pendek seperti MSVD, MSRVTT, TGIF, dan TVQA, Goldfish mengungguli metode canggih yang ada, dan menunjukkan keunggulannya dalam pemrosesan video pendek.
Goldfish berhasil mengatasi masalah pemrosesan video panjang melalui mekanisme pengambilan yang inovatif dan metode pembuatan deskripsi yang efisien, sekaligus membuat terobosan signifikan dalam pemahaman video pendek.
**Penekanan ditambahkan:**
Goldfish berhasil memproses video dengan durasi berapa pun melalui mekanisme pengambilan yang efisien dan teknologi pembuatan deskripsi MiniGPT4-Video, memecahkan kesulitan model tradisional dalam memproses video panjang.
Dalam pengujian benchmark selama TVQA, Goldfish mencapai akurasi 41,78%, melampaui tingkat teknis sebelumnya dan menunjukkan kemampuan pemrosesan yang kuat.
Goldfish mengungguli metode canggih yang ada pada berbagai tolok ukur video pendek, dan menunjukkan kemampuannya yang komprehensif dalam pemahaman video pendek.
Secara keseluruhan, Goldfish telah menunjukkan keunggulan signifikan dalam pemahaman video panjang dan pendek, membawa terobosan baru dalam pengembangan teknologi pemahaman video. Mekanisme pengambilan yang efisien dan kemampuan pembuatan deskripsi yang kuat menjadikannya arahan teknis yang penting untuk aplikasi pemahaman video di masa depan. Kemunculan Goldfish tidak diragukan lagi akan mendorong analisis dan pemahaman konten video ke tahap baru.