Raksasa AI Prancis menyerbu medan perang multi-modal: Mistral AI merilis model pemahaman gambar dan teks sumber terbuka Pixtral 12B

Penulis：Eve Cole Waktu Pembaruan：2024-12-30 09:32:01

Mistral AI secara luar biasa merilis model besar multi-modal open source pertama Pixtral12B. Skala parameter 12 miliar dan kemampuannya yang kuat untuk memproses gambar dan teks sebanding dengan seri Claude Anthropic dan GPT-4 OpenAI. Yang lebih mengejutkan lagi adalah Mistral AI secara langsung mengungkapkan bobot model dan bahkan menyediakan unduhan tautan magnet, yang sangat menurunkan ambang batas penggunaan dan memudahkan pengembang dan peneliti untuk memulai dengan cepat. Ukuran Pixtral12B hanya 23,64 GB, ringan di antara model multi-modal, memiliki konsumsi energi yang rendah, mudah diterapkan, dan dapat diunduh dalam beberapa menit di bawah jaringan berkecepatan tinggi.

Mistral AI sekali lagi mengejutkan dunia AI dan meluncurkan Pixtral12B, model besar multi-modal open source pertama. Model yang dapat memproses gambar dan teks secara bersamaan ini tidak hanya berteknologi maju, tetapi juga menarik perhatian luas karena keterbukaannya. Mistral AI secara langsung menerbitkan bobot model secara online, dan bahkan dengan cermat menyediakan tautan magnet.

Keunggulan Pixtral12B bukan hanya fungsinya yang kuat, tetapi juga desainnya yang indah. Ukuran total model hanya 23,64 GB, menjadikannya pemain ringan di antara model multimodal. Fitur ini sangat mengurangi konsumsi energi dan ambang penerapan, memungkinkan lebih banyak pengembang dan peneliti untuk memulai dengan mudah. Dilaporkan bahwa pengguna dengan koneksi Internet berkecepatan tinggi dapat menyelesaikan pengunduhan hanya dalam beberapa menit, sehingga sangat meningkatkan aksesibilitas model.

Sebagai mahakarya terbaru Mistral AI, Pixtral12B dikembangkan berdasarkan model teks Nemo12B dan memiliki 12 miliar parameter. Kemampuannya sebanding dengan model multi-modal terkenal seperti seri Claude Anthropic dan GPT-4 OpenAI, serta dapat memahami dan menjawab berbagai pertanyaan kompleks terkait gambar.

Dalam hal spesifikasi teknis, Pixtral12B juga sama mengesankannya: struktur jaringan 40 lapis, 14.336 dimensi tersembunyi, 32 kepala perhatian, dan encoder visual khusus 400M yang mendukung pemrosesan gambar beresolusi 1024x1024.

Yang lebih penting lagi adalah Pixtral12B berkinerja baik dalam sejumlah tes benchmark resmi. Pada platform seperti MMMU, Mathvista, ChartQA, dan DocVQA, hasilnya telah melampaui banyak model multi-modal terkenal termasuk Phi-3 dan Qwen-27B, yang sepenuhnya membuktikan kekuatannya yang kuat.

Langkah Mistral AI tidak diragukan lagi akan semakin mempromosikan gelombang model multi-modal open source. Respon komunitas terhadap model baru ini sangat besar, dengan banyak pengembang dan peneliti yang bersemangat untuk mulai mengeksplorasi potensi Pixtral12B. Hal ini tidak hanya mencerminkan vitalitas komunitas open source, namun juga menunjukkan bahwa teknologi AI multi-modal dapat mengantarkan babak baru inovasi.

Dengan dirilisnya Pixtral12B, kami memiliki alasan untuk menantikan munculnya aplikasi yang lebih inovatif. Baik di bidang pemahaman gambar, analisis dokumen, atau penalaran lintas modal, model ini dapat membawa kemajuan terobosan. Langkah Mistral AI ini tidak diragukan lagi berkontribusi pada demokratisasi dan mempopulerkan teknologi AI. Mari kita tunggu dan lihat bagaimana hal ini akan membentuk kembali pola bidang AI di masa depan.

alamat pelukan: https://huggingface.co/mistral-community/pixtral-12b-240910

Rilis open source Pixtral12B menandai tahap baru dalam pengembangan teknologi AI multi-modal. Desainnya yang ringan dan kinerja yang kuat akan sangat mendorong mempopulerkan dan penerapan teknologi AI. Kami berharap dapat melihat lebih banyak aplikasi inovatif berdasarkan Pixtral12B muncul. .