Dibuat untuk penalaran visual yang kompleks! Microsoft merilis model open source multi-modal Phi-3.5-vision yang ringan

Penulis：Eve Cole Waktu Pembaruan：2024-12-22 19:16:02

Microsoft telah meluncurkan model AI multi-modal ringan baru Phi-3.5-vision, yang merupakan anggota baru dari keluarga Phi-3 dan dirancang untuk memproses input teks dan visual. Model ini berkinerja baik di lingkungan dengan sumber daya terbatas dan mendukung panjang konteks 128K, sehingga ideal untuk aplikasi komersial dan penelitian. Phi-3.5-vision mengintegrasikan pemahaman gambar, OCR, analisis grafik, dan fungsi lainnya, dan telah menunjukkan kinerja luar biasa dalam berbagai pengujian benchmark. Sifatnya yang open source dan desain yang efisien menjadikannya pilihan ideal untuk berbagai aplikasi AI.

Model visi Phi-3.5 menampilkan pemahaman gambar yang luas, pengenalan karakter optik (OCR), penguraian bagan dan tabel, ringkasan multi-gambar atau klip video, dan banyak lagi. Model ini menunjukkan peningkatan kinerja yang signifikan pada tolok ukur terkait pemrosesan gambar dan video.

Model Phi-3.5-vision terdiri dari sistem 4,2 miliar parameter, termasuk encoder gambar, konektor, proyektor, dan model bahasa Phi-3Mini. Ini dilatih menggunakan data pendidikan berkualitas tinggi, data sintetis, dan dokumen publik yang disaring secara ketat, memastikan kualitas dan privasi data.

Phi-3.5-vision berisi tiga model:

Phi-3.5Mini Instruct: Model AI ringan, cocok untuk lingkungan dengan memori atau sumber daya komputasi terbatas.

Phi-3.5MoE (Mixture of Experts): Model “campuran pakar” pertama Microsoft, yang bagus dalam menangani tugas-tugas kompleks.

Phi-3.5Vision Instruct: Model multimodal yang mengintegrasikan fungsi pemrosesan teks dan gambar.

Fitur utama

Fitur fungsional utama model visi Phi-3.5 mencakup pemahaman gambar, OCR, pemahaman bagan dan tabel, perbandingan multi-gambar, ringkasan multi-gambar atau klip video, kemampuan penalaran yang efisien, serta latensi rendah dan optimalisasi memori.

Phi-3.5-vision berkinerja baik dalam beberapa pengujian benchmark, seperti MMMU, MMBench, TextVQA dan pengujian kemampuan pemrosesan video, serta pengujian benchmark BLINK, yang menunjukkan kinerjanya yang kuat dalam tugas multi-modal dan visual.

Peluncuran model Microsoft Phi-3.5-vision menghadirkan opsi baru di bidang AI, terutama dalam hal pengoperasian di sisi perangkat dan penalaran visual yang kompleks. Fitur open source dan desain yang dioptimalkan memungkinkannya bekerja dengan baik di lingkungan dengan sumber daya terbatas, memberikan dukungan kuat untuk berbagai aplikasi berbasis AI.

Alamat pengunduhan model: https://huggingface.co/microsoft/Phi-3.5-vision-instruct

Secara keseluruhan, Phi-3.5-vision menyediakan alat yang ampuh bagi pengembang dan peneliti AI dengan karakteristiknya yang ringan, multi-modal, dan berkinerja tinggi, sehingga mendorong penerapan AI di lebih banyak bidang. Sifatnya yang open source juga mendorong pembagian dan pengembangan teknologi AI.