OpenBMB merilis model multi-modal MiniCPM-o2.6. Ponsel juga dapat melakukan pemrosesan visual dan ucapan - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-28 16:16:02

Kecerdasan buatan telah mencapai kemajuan besar dalam pemrosesan multi-modal, tetapi model berkinerja tinggi seringkali memerlukan sumber daya komputasi yang besar, sehingga membatasi penerapannya pada perangkat edge. Menanggapi tantangan ini, OpenBMB meluncurkan MiniCPM-o2.6, model multi-modal yang efisien, yang bertujuan untuk menjembatani kesenjangan antara teknologi AI canggih dan perangkat dengan sumber daya terbatas. MiniCPM-o2.6 memiliki 8 miliar parameter, mengintegrasikan modul pemrosesan penglihatan, ucapan, dan bahasa, serta dioptimalkan untuk berjalan dengan lancar di perangkat seperti ponsel cerdas dan tablet, memberikan cara penerapan solusi AI yang lebih nyaman bagi pengembang dan perusahaan.

Teknologi kecerdasan buatan telah mengalami kemajuan yang signifikan dalam beberapa tahun terakhir, namun masih terdapat tantangan antara efisiensi komputasi dan keserbagunaan. Banyak model multi-modal canggih, seperti GPT-4, biasanya memerlukan sumber daya komputasi dalam jumlah besar, sehingga membatasi penggunaannya pada server kelas atas, sehingga menyulitkan teknologi pintar untuk digunakan secara efektif pada perangkat edge seperti ponsel cerdas dan tablet. Selain itu, masih terdapat hambatan teknis dalam memproses tugas-tugas seperti analisis video atau ucapan-ke-teks secara real-time, sehingga menyoroti perlunya model AI yang efisien dan fleksibel yang dapat beroperasi dengan lancar dalam kondisi perangkat keras yang terbatas.

Untuk mengatasi masalah ini, OpenBMB baru-baru ini meluncurkan MiniCPM-o2.6, model dengan arsitektur 8 miliar parameter yang dirancang untuk mendukung pemrosesan penglihatan, ucapan, dan bahasa, dan dapat berjalan secara efisien di perangkat edge seperti ponsel cerdas, tablet, dan iPad. MiniCPM-o2.6 mengadopsi desain modular dan mengintegrasikan beberapa komponen canggih:

- SigLip-400M untuk pemahaman visual.

- Whisper-300M mengimplementasikan pemrosesan ucapan multi-bahasa.

- ChatTTS-200M menyediakan kemampuan percakapan.

- Qwen2.5-7B untuk pemahaman teks tingkat lanjut.

Model ini mencapai skor rata-rata 70,2 pada benchmark OpenCompass, melampaui GPT-4V dalam tugas visual. Dukungan multi-bahasa dan pengoperasian yang efisien pada perangkat kelas konsumen menjadikannya praktis dalam berbagai skenario aplikasi.

MiniCPM-o2.6 mencapai kinerja hebat melalui detail teknis berikut:

- Pengoptimalan parameter: Meskipun ukurannya besar, ini dioptimalkan melalui kerangka kerja seperti llama.cpp dan vLLM untuk menjaga akurasi dan mengurangi kebutuhan sumber daya.

- Pemrosesan multi-modal: mendukung pemrosesan gambar hingga resolusi 1344×1344, dan memiliki fungsi OCR untuk kinerja luar biasa.

- Dukungan media streaming: Mendukung pemrosesan video dan audio berkelanjutan, sehingga dapat diterapkan pada skenario pemantauan waktu nyata dan siaran langsung.

- Fitur suara: Memberikan pemahaman ucapan bilingual, kloning suara, dan kontrol emosi untuk mendorong interaksi real-time yang alami.

- Mudah diintegrasikan: Kompatibel dengan platform seperti Gradio, menyederhanakan proses penerapan dan cocok untuk aplikasi komersial dengan kurang dari satu juta pengguna aktif harian.

Fitur-fitur ini menjadikan MiniCPM-o2.6 peluang bagi pengembang dan perusahaan untuk menerapkan solusi AI yang kompleks tanpa bergantung pada infrastruktur yang besar.

MiniCPM-o2.6 berkinerja baik di berbagai bidang. Ini melampaui GPT-4V dalam tugas visual, mewujudkan dialog bahasa Mandarin dan Inggris secara real-time, kontrol emosi dan kloning suara dalam hal pemrosesan ucapan, dan memiliki kemampuan interaksi bahasa alami yang sangat baik. Pada saat yang sama, pemrosesan video dan audio yang berkelanjutan membuatnya cocok untuk penerjemahan waktu nyata dan alat pembelajaran interaktif, memastikan akurasi tinggi dalam tugas OCR seperti digitalisasi dokumen.

Peluncuran MiniCPM-o2.6 mewakili perkembangan penting dalam teknologi kecerdasan buatan, yang berhasil memecahkan tantangan lama antara model intensif sumber daya dan kompatibilitas perangkat edge. Dengan menggabungkan kemampuan multimodal tingkat lanjut dengan pengoperasian perangkat edge yang efisien, OpenBMB menciptakan model yang kuat dan mudah diakses. Ketika kecerdasan buatan menjadi semakin penting dalam kehidupan sehari-hari, MiniCPM-o2.6 menunjukkan bagaimana inovasi dapat mempersempit kesenjangan antara kinerja dan kepraktisan, sehingga memungkinkan pengembang dan pengguna di berbagai industri untuk memanfaatkan teknologi mutakhir secara efektif.

Model: https://huggingface.co/openbmb/MiniCPM-o-2_6

Menyorot:

MiniCPM-o2.6 adalah model multi-modal dengan 8 miliar parameter yang dapat berjalan secara efisien di perangkat edge dan mendukung pemrosesan penglihatan, ucapan, dan bahasa.

Model ini berkinerja baik pada benchmark OpenCompass, melampaui GPT-4V dalam tugas visual, dan memiliki kemampuan pemrosesan multi-bahasa.

MiniCPM-o2.6 memiliki fungsi seperti pemrosesan waktu nyata, kloning suara, dan kontrol emosi, serta cocok untuk aplikasi inovatif di bidang pendidikan, medis, dan industri lainnya.

Secara keseluruhan, kemunculan MiniCPM-o2.6 menandai terobosan besar dalam penerapan teknologi AI. Teknologi ini berhasil menggabungkan kemampuan multimodal yang kuat dengan kebutuhan konsumsi sumber daya yang rendah pada perangkat edge, sehingga membuka jalan bagi penerapan AI secara luas teknologi. Ini memiliki nilai aplikasi dan prospek pengembangan yang sangat tinggi.