Google baru-baru ini merilis VideoPrism, encoder visual serba guna baru. Berdasarkan pra-pelatihan data video besar-besaran dan pasangan teks, model ini telah membuat terobosan signifikan dan menyegarkan 30 item SOTA. VideoPrism menunjukkan keserbagunaan dan kemampuan generalisasi yang kuat serta dapat menangani berbagai tugas pemahaman video termasuk klasifikasi, pelokalan, pengambilan, subtitle, dan tanya jawab, menghadirkan kemungkinan baru untuk pengembangan bidang video di masa depan. Kinerjanya yang efisien dan prospek penerapannya yang luas menjadikannya sorotan dalam bidang kecerdasan buatan.
Tim Google meluncurkan VideoPrism, encoder visual serba guna baru. Berdasarkan pra-pelatihan data video besar dan pasangan teks, kinerjanya telah menyegarkan 30 item SOTA. Model ini dapat menangani berbagai tugas pemahaman video, termasuk klasifikasi, pelokalan, pengambilan, subtitel, dan menjawab pertanyaan. Google VideoPrism menunjukkan keserbagunaan dan kemampuan generalisasi yang kuat, membawa terobosan besar dalam bidang video.
Kemunculan VideoPrism menandai kemajuan penting dalam teknologi pemahaman video. Performanya yang kuat dan prospek penerapannya yang luas diharapkan dapat mendorong pengembangan lebih lanjut teknologi dan aplikasi terkait video, memberikan pengalaman yang lebih nyaman dan cerdas kepada pengguna. Di masa depan, VideoPrism diharapkan dapat menunjukkan kemampuannya yang kuat di lebih banyak bidang.