Alibaba meluncurkan model besar multi-modal mPLUG-Owl3, yang dapat menonton film berdurasi 2 jam dalam 4 detik

Penulis：Eve Cole Waktu Pembaruan：2024-12-22 11:32:01

Model besar multimodal serba guna terbaru dari Alibaba, mPLUG-Owl3, telah memicu badai di bidang kecerdasan buatan dengan kemampuan pemahaman multimodal yang kuat dan efisiensi penalaran yang luar biasa. Ia dapat memahami konten video berdurasi 2 jam dalam 4 detik dan secara akurat menjawab berbagai pertanyaan yang diajukan pengguna, menunjukkan kinerja luar biasa dalam pemahaman gambar, video, dan teks. Terobosan teknologi ini tidak hanya menjadi tonggak sejarah dalam dunia akademis, namun juga menandai perubahan masa depan dalam cara AI berinteraksi dengan manusia.

Di era ledakan informasi ini, kita menggunakan gambar dan video untuk merekam kehidupan kita dan berbagi kebahagiaan setiap hari. Namun pernahkah Anda memikirkan apa yang akan terjadi jika ada teknologi yang memungkinkan mesin tidak hanya memahami gambar dan video seperti manusia, namun juga berkomunikasi dengan kita secara mendalam?

Model besar multi-modal serbaguna terbaru mPLUG-Owl3 yang dirilis oleh tim Alibaba, dengan efisiensi dan kemampuan pemahamannya yang luar biasa, memungkinkan kita menonton film berdurasi 2 jam dalam 4 detik! Ini adalah asisten AI yang dapat melihat, mendengar, berbicara, dan berpikir.

mPLUG-Owl3, namanya terdengar seperti burung hantu berkacamata, cerdas dan waspada. Kemampuan intinya adalah pemahaman rangkaian gambar yang panjang. Baik itu rangkaian foto maupun video, dapat memahami isinya bahkan memahami jalan cerita.

Agar mPLUG-Owl3 dapat memproses begitu banyak informasi, para peneliti melengkapinya dengan modul super brain-hyper-attention. Modul ini ibarat otak super bagi AI, yang mampu memproses informasi visual dan bahasa secara bersamaan, sehingga memungkinkan AI memahami gambar dan informasi teks terkait.

Model mPLUG-Owl3 telah membuat terobosan besar dalam bidang pemahaman multi-modal dengan efisiensi penalaran yang sangat baik. Ini tidak hanya mencapai SOTA (State of the Art) dalam tolok ukur multi-skenario seperti gambar tunggal, multi-gambar, video, dll., tetapi juga mengurangi Latensi Token Pertama sebanyak 6 kali lipat, dan jumlah gambar yang dapat diproses oleh satu kartu grafis A100 meningkat 8 kali lipat, mencapai 400 lembar.

mPLUG-Owl3 dapat secara akurat memahami pengetahuan multi-modal yang masuk dan menggunakannya untuk menjawab pertanyaan. Ia bahkan dapat memberi tahu Anda bagian pengetahuan mana yang menjadi dasar penilaiannya, serta dasar rinci penilaiannya.

mPLUG-Owl3 dapat memahami dengan benar hubungan konten dalam berbagai materi dan melakukan penalaran mendalam. Baik itu perbedaan gaya atau pengenalan karakter, semuanya ditangani dengan mudah.

mPLUG-Owl3 mampu menonton dan memahami video berdurasi hingga 2 jam dan dapat mulai menjawab pertanyaan pengguna dalam waktu 4 detik, tidak peduli bagian mana dari video yang ditanyakan.

mPLUG-Owl3 menggunakan modul Hyper Attention yang ringan untuk memperluas Blok Transformer menjadi modul baru yang mampu melakukan interaksi fitur grafis dan teks serta pemodelan teks. Desain ini sangat mengurangi jumlah parameter tambahan baru yang diperkenalkan, membuat model lebih mudah untuk dilatih, dan efisiensi pelatihan serta inferensi juga ditingkatkan.

Bereksperimen pada berbagai kumpulan data, mPLUG-Owl3 mencapai hasil SOTA pada sebagian besar tolok ukur multi-modal gambar tunggal. Dalam evaluasi multi-gambar, ini melampaui model yang secara khusus dioptimalkan untuk skenario multi-gambar. Di LongVideoBench, ini melampaui model yang ada, menunjukkan kemampuannya yang luar biasa dalam pemahaman video panjang.

Peluncuran Alibaba mPLUG-Owl3 tidak hanya merupakan lompatan teknologi, namun juga memberikan kemungkinan baru untuk penerapan model multimodal besar. Seiring dengan kemajuan teknologi, kami berharap mPLUG-Owl3 menghadirkan lebih banyak kejutan di masa depan.

Alamat makalah: https://arxiv.org/pdf/2408.04840

Kode: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

Pengalaman online: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3

Kemunculan mPLUG-Owl3 menandai tahap baru dalam pengembangan teknologi model besar multi-modal. Kemampuan pemrosesan yang efisien dan kemampuan pemahaman yang akurat membuka prospek luas untuk penerapan teknologi AI di masa depan. Saya yakin seiring dengan semakin berkembangnya teknologi, mPLUG-Owl3 akan menghadirkan lebih banyak kemudahan dan kejutan dalam kehidupan masyarakat. Menantikan aplikasi yang lebih inovatif berdasarkan mPLUG-Owl3.