API model pemahaman gambar multi-modal Sisi Gelap Bulan Kimi dirilis - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-28 16:32:01

Beijing Dark Side of the Moon Technology Co., Ltd. telah merilis model pemahaman gambar multi-modal baru moonshot-v1-vision-preview. Model ini merupakan perpanjangan dari seri moonshot-v1 dan secara signifikan meningkatkan kemampuan Kimi untuk memahami informasi gambar . Model Vision memiliki kemampuan pengenalan gambar yang kuat dan dapat secara akurat membedakan perbedaan halus, seperti dengan mudah membedakan gambar muffin blueberry dan Chihuahua yang sangat mirip. Selain itu, ia juga berkinerja baik dalam pengenalan teks OCR, dan dapat secara akurat mengenali berbagai dokumen termasuk tulisan tangan, seperti kuitansi dan pesanan pengiriman ekspres. Model ini mendukung berbagai fitur, seperti dialog multi-putaran, keluaran streaming, dll., memberikan pengalaman yang lebih nyaman dan efisien kepada pengguna.

Pada tanggal 15 Januari 2025, Beijing Dark Side of the Moon Technology Co., Ltd. mengumumkan peluncuran resmi model pemahaman gambar multi-modal baru moonshot-v1-vision-preview Seri model -v1 dan membantu Kimi Memahami dunia dengan lebih baik.

Model Vision memiliki kemampuan pengenalan gambar yang kuat dan dapat secara akurat mengidentifikasi detail dan nuansa kompleks dalam gambar, baik itu makanan atau hewan, dan dapat membedakan objek serupa namun tidak identik. Misalnya, ketika dihadapkan pada 16 gambar serupa muffin blueberry dan Chihuahua yang sulit dibedakan oleh mata manusia, model Vision dapat membedakan dan mengidentifikasinya secara akurat.

Model Vision juga memiliki kemampuan pengenalan gambar terdepan di negara ini dan berkinerja baik dalam skenario pengenalan teks OCR dan pemahaman gambar. Model ini lebih akurat dibandingkan perangkat lunak pemindaian dokumen biasa dan pengenalan OCR, serta dapat mengenali konten tulisan tangan seperti tanda terima dan pesanan pengiriman ekspres. .

微信截图_20250115135433.png

Model visi Vision mendukung beberapa putaran dialog, keluaran streaming, pemanggilan alat, Mode JSON, Mode Parsial, dan fitur lainnya, namun saat ini tidak mendukung pencarian online. Model ini tidak mendukung pembuatan Cache Konteks dengan konten gambar, namun mendukung penggunaan panggilan Cache yang berhasil dibuat. Model Vision tidak mendukung gambar dalam format URL dan saat ini hanya mendukung konten gambar yang dikodekan base64.

Penagihan model

Harga satuan penagihan model token moonshot-v1-8k-vision-preview1 juta¥12,00moonshot-v1-32k-vision-preview1 juta token¥24,00moonshot-v1-128k-vision-preview1 juta token¥60,00

Peluncuran model pratinjau visi moonshot-v1 menandai terobosan baru yang dibuat oleh Beijing Dark Side of the Moon Technology Co., Ltd. di bidang kecerdasan buatan multi-modal dan memberikan arah baru untuk pengembangan pemahaman gambar teknologi. Kinerjanya yang kuat dan fungsinya yang kaya memberikan prospek penerapan yang luas dalam banyak skenario aplikasi, dan pengembangan dan penerapannya di masa depan patut dinantikan.