Zero One Wish telah merilis seri model bahasa multi-modal Yi Yi-VL, yang telah menunjukkan kinerja luar biasa dalam pemahaman gambar dan teks serta pembuatan dialog. Model Yi-VL telah mencapai hasil terdepan dalam kumpulan data berbahasa Mandarin dan Inggris. Khususnya dalam uji benchmark MMMU, Yi-VL-34B mengungguli model serupa lainnya dengan akurasi 41,6%, menunjukkan pemahaman pengetahuan interdisipliner dan kemampuan penerapannya yang kuat. . Artikel ini akan mengeksplorasi secara mendalam arsitektur, kinerja, dan pentingnya model Yi-VL di bidang multi-modal.
Model bahasa multi-modal 01Wan Yi-VL adalah anggota baru dari keluarga model seri 01Wan Yi. Model ini memiliki kemampuan luar biasa dalam pemahaman gambar dan teks serta pembuatan dialog. Model Yi-VL telah mencapai hasil terbaik pada kumpulan data Inggris MMMU dan kumpulan data Tiongkok CMMMU, yang menunjukkan kekuatannya dalam tugas-tugas interdisipliner yang kompleks. Yi-VL-34B melampaui model besar multi-modal lainnya dengan akurasi 41,6% dalam benchmark multi-modal MMMU yang baru, menunjukkan pemahaman pengetahuan interdisipliner dan kemampuan penerapannya yang kuat. Model Yi-VL didasarkan pada arsitektur LLaVA open source dan mencakup Vision Transformer (ViT), modul Proyeksi, dan model bahasa skala besar Yi-34B-Chat dan Yi-6B-Chat. ViT digunakan untuk pengkodean gambar, modul Proyeksi mengimplementasikan kemampuan untuk menyelaraskan fitur gambar dengan fitur teks secara spasial, dan model bahasa skala besar memberikan pemahaman bahasa dan kemampuan pembangkitan yang kuat.Kemunculan model Yi-VL menandai terobosan baru dalam teknologi model bahasa multi-modal, dan kinerjanya yang kuat serta prospek penerapannya yang luas patut dinantikan. Di masa depan, dengan perkembangan teknologi yang berkelanjutan, model Yi-VL diharapkan dapat memainkan peran penting di lebih banyak bidang dan mendorong kemajuan serta penerapan teknologi kecerdasan buatan.