Tim Peneliti AI Salesforce merilis model bahasa multimodal terbaru, Blip-3-Video, yang bertujuan untuk memproses data video yang berkembang secara efisien. Model pemahaman video tradisional tidak efisien. Langkah ini memecahkan masalah berurusan dengan video panjang dan memberikan kemampuan pemahaman video yang lebih kuat untuk industri seperti mengemudi dan hiburan otonom.
Baru-baru ini, tim peneliti AI Salesforce meluncurkan model bahasa multimodal baru-Blip-3-Video. Dengan peningkatan cepat dalam konten video, cara memproses data video secara efisien telah menjadi masalah yang mendesak. Munculnya model ini dirancang untuk meningkatkan efisiensi dan efektivitas pemahaman video dan cocok untuk industri dari mengemudi otonom hingga hiburan.
Model pemahaman video tradisional sering kali memproses bingkai video berdasarkan bingkai, menghasilkan sejumlah besar informasi visual. Proses ini tidak hanya mengkonsumsi banyak sumber daya komputasi, tetapi juga sangat membatasi kemampuan untuk memproses video yang panjang. Ketika jumlah data video terus tumbuh, pendekatan ini menjadi semakin tidak efisien, sehingga sangat penting untuk menemukan solusi yang menangkap informasi penting dari video sambil mengurangi beban komputasi.
Dalam hal ini, Blip-3-Video berkinerja cukup baik. Dengan memperkenalkan "Encoder Urutan Waktu", model berhasil mengurangi jumlah informasi visual yang diperlukan dalam video menjadi 16 hingga 32 penanda visual. Desain inovatif ini sangat meningkatkan efisiensi komputasi, memungkinkan model untuk menyelesaikan tugas video yang kompleks dengan biaya lebih rendah. Encoder waktu ini menggunakan mekanisme pengumpulan perhatian spatiotemporal yang dapat dipelajari yang mengekstraksi informasi paling penting dari setiap bingkai dan mengintegrasikannya ke dalam serangkaian penanda visual yang ringkas.
Blip-3-Video juga berkinerja sangat baik. Melalui perbandingan dengan model besar lainnya, penelitian ini menemukan bahwa model ini memiliki tingkat akurasi model top yang sebanding dalam tugas T&J video. Misalnya, model Tarsier-34b membutuhkan 4608 nilai untuk memproses 8 frame video, sementara blip-3-video hanya membutuhkan 32 tanda untuk mencapai skor benchmark MSVD-QA 77,7%. Ini menunjukkan bahwa Blip-3-Video secara signifikan mengurangi konsumsi sumber daya sambil mempertahankan kinerja tinggi.
Selain itu, kinerja Blip-3-Video dalam tugas-tugas tanya jawab pilihan ganda tidak boleh diremehkan. Dalam dataset Next-QA, model mencapai skor tinggi 77,1%, sedangkan dalam dataset TGIF-QA, ia juga mencapai tingkat akurasi 77,1%. Semua data ini menunjukkan efisiensi Blip-3-Video saat berhadapan dengan masalah video yang kompleks.
BLIP-3-Video membuka kemungkinan baru di bidang pemrosesan video melalui encoder waktu yang inovatif. Peluncuran model ini tidak hanya meningkatkan efisiensi pemahaman video, tetapi juga memberikan lebih banyak kemungkinan untuk aplikasi video di masa depan.
Pintu masuk proyek: https://www.salesforceairesearch.com/opensource/xgen-mm-vid/index.html
Poin -Poin Kunci:
-** Rilis Model Baru **: Penelitian AI Salesforce meluncurkan Blip-3-Video, model bahasa multimodal, yang berfokus pada pemrosesan video.
- ** Pemrosesan yang efisien **: Penggunaan enkoder waktu sangat mengurangi jumlah tanda visual yang diperlukan dan secara signifikan meningkatkan efisiensi komputasi.
- ** Kinerja Superior **: Kinerja yang sangat baik dalam Tugas Tanya Jawab Video, pertahankan akurasi tinggi sambil mengurangi konsumsi sumber daya.
Singkatnya, Blip-3-Video telah membawa kemajuan yang signifikan ke bidang pemahaman video dengan kemampuan pemrosesan yang efisien dan kinerja yang sangat baik, dan prospek aplikasinya luas. Sumber terbuka model ini juga memberikan dasar yang baik untuk penelitian dan aplikasi lebih lanjut.