MiniCPM-o2.6, model bahasa multi-modal berskala besar terbaru yang dirilis oleh tim OpenBMB, menonjol di komunitas open source dengan 800 juta parameter dan kemampuan pemrosesan multi-modal yang kuat. Mendukung berbagai metode masukan seperti gambar, video, teks dan audio, serta menyediakan keluaran teks dan suara berkualitas tinggi, dengan kinerja mendekati GPT-4o-202405. Mode suara MiniCPM-o2.6 telah menambahkan fungsi dialog real-time bilingual, mendukung kontrol emosi, kecepatan dan gaya, dan bahkan permainan peran dan kloning suara. Selain itu, kemampuan OCR yang kuat dan dukungan multi-bahasa memungkinkannya mencapai kemajuan signifikan dalam pemahaman video real-time dan siaran langsung multi-modal di perangkat seluler.
MiniCPM-o2.6 memiliki kemampuan pemrosesan masukan yang kuat, dapat menerima berbagai metode masukan seperti gambar, video, teks dan audio, serta menyediakan keluaran teks dan suara berkualitas tinggi.
Mode suara model ini memiliki fungsi dialog real-time bilingual baru. Pengguna dapat mengonfigurasi suara yang berbeda sesuai kebutuhan, mendukung emosi, kontrol kecepatan dan gaya, dan bahkan mengaktifkan aplikasi menarik seperti permainan peran dan kloning suara. Rangkaian inovasi ini menjadikan MiniCPM-o2.6 lebih kaya dalam pengalaman interaktif, dan pengguna dapat menikmati metode komunikasi yang lebih alami dan lancar.
Selain terobosan dalam dialog suara, MiniCPM-o2.6 juga mengalami kemajuan signifikan dalam kemampuan pemrosesan visual. Fungsi OCR (pengenalan karakter optik) yang kuat dan dukungan multi-bahasa membuatnya lebih efisien dalam pemahaman video waktu nyata. Kemampuan luar biasa ini juga memungkinkan siaran langsung multi-modal di perangkat seluler untuk pertama kalinya. Pengguna dapat melakukan siaran langsung di perangkat seperti iPad, menghadirkan berbagi konten yang lebih interaktif dan menarik.
Sejak Februari 2024, seri MiniCPM telah merilis enam versi, dan tim bertujuan untuk terus meningkatkan performa dan efisiensi penerapan model tersebut. Model ini tidak hanya inovatif secara teknis, namun juga mewakili kemajuan signifikan dalam pengalaman interaktif multimodal. Baik itu aplikasi di bidang profesional atau interaksi hiburan dalam kehidupan sehari-hari, MiniCPM-o2.6 akan menjadi asisten cerdas yang sangat diperlukan bagi pengguna.
Alamat proyek: https://github.com/OpenBMB/MiniCPM-o
Sebagai versi terbaru dari seri MiniCPM, MiniCPM-o2.6 menunjukkan kinerja yang kuat dan skenario aplikasi yang kaya dalam interaksi multi-modal, memberikan pengalaman yang lebih nyaman dan cerdas kepada pengguna inovatif.