Editor Downcode membawakan Anda berita besar tentang MiniCPM-V2.6! Model kecerdasan buatan multi-modal sisi akhir dengan hanya parameter 8B ini telah mencapai hasil SOTA model di bawah 20B dalam tiga bidang pemahaman gambar tunggal, multi-gambar, dan video. Teknologi ini tidak hanya memiliki performa yang kuat, namun juga mencapai efisiensi pengoperasian dan kemudahan pengoperasian yang sangat tinggi pada perangkat sisi akhir, menghadirkan kemungkinan baru pada aplikasi AI sisi akhir, bahkan sebanding dengan GPT-4V. Mari kita lihat lebih dalam fungsi dan fitur canggih MiniCPM-V2.6.
Model kecerdasan buatan multi-modal sisi akhir MiniCPM-V2.6 hanya memiliki parameter 8B tetapi telah mencapai tiga hasil SOTA (State of the Art, level terbaik saat ini) untuk pemahaman gambar tunggal, multi-gambar, dan video di bawah 20B -Kemampuan modal AI sisi akhir telah ditingkatkan secara signifikan, dan sepenuhnya selaras dengan level GPT-4V.
Berikut ringkasan fiturnya:
Fitur model: MiniCPM-V2.6 mencapai transendensi komprehensif dari kemampuan inti seperti pemahaman gambar tunggal, multi-gambar, dan video di sisi klien, dan menghadirkan pemahaman video real-time, pemahaman gabungan multi-gambar, dan fungsi lainnya ke sisi klien untuk pertama kalinya, membawanya lebih dekat ke skenario dunia nyata yang kompleks.
Efisiensi dan kinerja: Model ini kecil dan besar, dengan kerapatan piksel yang sangat tinggi (Kepadatan Token), yang dua kali lebih tinggi dari kerapatan piksel pengkodean token tunggal GPT-4o, dan mencapai efisiensi pengoperasian yang sangat tinggi pada perangkat sisi akhir.
Keramahan sisi klien: Model ini hanya memerlukan memori 6GB setelah kuantisasi, dan kecepatan inferensi sisi klien mencapai 18 token per detik, yang 33% lebih cepat dari model generasi sebelumnya, dan mendukung berbagai bahasa dan kerangka inferensi.
Perluasan fungsi: MiniCPM-V2.6 menggunakan kemampuan OCR untuk memigrasikan kemampuan analisis gambar definisi tinggi dari adegan gambar tunggal ke adegan multi-gambar dan video, sehingga mengurangi jumlah token visual dan menghemat sumber daya.
Kemampuan penalaran: Ini menunjukkan kemampuan luar biasa dalam pemahaman multi-gambar dan tugas penalaran yang kompleks, seperti petunjuk langkah demi langkah untuk menyesuaikan kursi sepeda dan mengidentifikasi alur di belakang meme.
ICL multi-grafik: Model ini mendukung pembelajaran beberapa langkah kontekstual, dapat dengan cepat beradaptasi dengan tugas di bidang tertentu, dan meningkatkan stabilitas keluaran.
Arsitektur visual definisi tinggi: Melalui arsitektur visual terpadu, kemampuan OCR model dilanjutkan, memungkinkan perluasan yang mulus dari satu gambar ke beberapa gambar dan video.
Tingkat halusinasi sangat rendah: MiniCPM-V2.6 berkinerja baik dalam evaluasi halusinasi, menunjukkan kredibilitasnya.
Peluncuran model MiniCPM-V2.6 sangat penting bagi pengembangan AI sisi akhir. Hal ini tidak hanya meningkatkan kemampuan pemrosesan multi-modal, namun juga menunjukkan kemungkinan mewujudkan AI berkinerja tinggi pada perangkat sisi akhir sumber daya yang terbatas.
Alamat sumber terbuka MiniCPM-V2.6:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
Memeluk Wajah:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp, ollama, alamat tutorial penerapan vllm:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Alamat sumber terbuka seri MiniCPM:
https://github.com/OpenBMB/MiniCPM
Kemunculan MiniCPM-V2.6 tidak diragukan lagi telah memberikan dorongan pada pengembangan teknologi AI sisi klien. Performanya yang efisien, bertenaga, dan metode sumber terbuka yang nyaman akan menyediakan sumber daya berharga bagi lebih banyak pengembang dan peneliti serta mendorong inovasi lebih lanjut dan mempopulerkan aplikasi AI di sisi perangkat. Kami menantikan seri MiniCPM yang menghadirkan lebih banyak kejutan di masa mendatang!