Компания Beijing Dark Side of the Moon Technology Co., Ltd. выпустила новую мультимодальную модель распознавания изображений Moonshot-v1-vision-preview. Эта модель является расширением серии Moonshot-v1 и значительно улучшает способность Кими понимать информацию об изображении. . Модель Vision обладает мощными возможностями распознавания изображений и может точно различать незначительные различия, например, легко различать очень похожие изображения черничных кексов и чихуахуа. Кроме того, он также хорошо справляется с распознаванием текста OCR и может точно распознавать различные документы, включая нацарапанный почерк, например, квитанции и заказы на экспресс-доставку. Эта модель поддерживает различные функции, такие как многораундовый диалог, потоковый вывод и т. д., предоставляя пользователям более удобный и эффективный опыт.
15 января 2025 года компания Beijing Dark Side of the Moon Technology Co., Ltd. объявила об официальном выпуске новой мультимодальной модели распознавания изображений Moonshot-v1-vision-preview. Эта модель улучшает мультимодальные возможности Moonshot. Модельный ряд -v1 помогает Кими лучше понять мир.
Модель Vision обладает мощными возможностями распознавания изображений и может точно идентифицировать сложные детали и нюансы на изображениях, будь то еда или животные, а также различать похожие, но не идентичные объекты. Например, столкнувшись с 16 одинаковыми изображениями черничных кексов и чихуахуа, которые трудно различить человеческому глазу, модель Vision может точно различить и идентифицировать их.
Модель Vision также обладает лучшими в стране возможностями распознавания изображений и хорошо работает в сценариях распознавания текста и изображений. Она более точна, чем обычное программное обеспечение для сканирования документов и распознавания изображений, и может распознавать нацарапанный рукописный контент, такой как квитанции и заказы на экспресс-доставку. .
Модель Vision Vision поддерживает несколько раундов диалога, потоковую передачу данных, вызов инструментов, режим JSON, частичный режим и другие функции, но в настоящее время не поддерживает онлайн-поиск. Она не поддерживает создание контекстного кэша с содержимым изображения, но поддерживает. использование успешно созданных вызовов кэша. Модель Vision не поддерживает изображения в формате URL и в настоящее время поддерживает только содержимое изображений в кодировке Base64.
Модель биллинга
Цена за единицу выставления счетов за модельВыпуск модели Moonshot-v1-vision-preview знаменует собой новый прорыв, сделанный компанией Beijing Dark Side of the Moon Technology Co., Ltd. в области мультимодального искусственного интеллекта, и открывает новое направление для развития понимания изображений. технология. Его высокая производительность и богатые функции открывают ему широкие перспективы применения во многих сценариях применения, и стоит с нетерпением ждать его дальнейшего развития и применения.