Dark Side of the Moon 君マルチモーダル画像理解モデルAPI公開 - AI記事

著者：Eve Cole 更新時間：2025-01-28 16:32:01

北京ダークサイドオブザムーンテクノロジー有限公司は、新しいマルチモーダル画像理解モデルmoonshot-v1-vision-previewをリリースしました。このモデルはmoonshot-v1シリーズの拡張であり、キミの画像情報を理解する能力を大幅に向上させます。。 Vision モデルは強力な画像認識機能を備えており、ブルーベリーマフィンとチワワのよく似た写真を簡単に区別するなど、微妙な違いを正確に区別できます。さらに、OCRテキスト認識にも優れており、領収書や宅配便の注文書など、走り書きを含むさまざまな文書を正確に認識できます。このモデルは、マルチラウンドダイアログ、ストリーミング出力などのさまざまな機能をサポートし、ユーザーにより便利で効率的なエクスペリエンスを提供します。

2025 年 1 月 15 日、Beijing Dark Side of the Moon Technology Co., Ltd. は、新しいマルチモーダル画像理解モデル Moonshot-v1-vision-preview の正式リリースを発表しました。このモデルは、ムーンショットのマルチモーダル機能を向上させます。 -v1 モデルシリーズは、キミが世界をよりよく理解するのに役立ちます。

ビジョンモデルは強力な画像認識機能を備えており、食べ物であれ動物であれ、画像内の複雑な詳細とニュアンスを正確に識別でき、類似しているが同一ではない物体を区別できます。たとえば、人間の目では区別するのが難しいブルーベリーマフィンとチワワの類似した 16 枚の写真に直面しても、Vision モデルはそれらを正確に区別して識別できます。

Vision モデルは、国内をリードする高度な画像認識機能も備えており、OCR テキスト認識および画像理解シナリオで優れたパフォーマンスを発揮します。通常の文書スキャンおよび OCR 認識ソフトウェアよりも正確で、領収書や速達注文などの走り書きされた手書きコンテンツを認識できます。。

微信截图_20250115135433.png

Vision ビジョンモデルは、複数ラウンドのダイアログ、ストリーミング出力、ツール呼び出し、JSON モード、部分モード、その他の機能をサポートしていますが、現在オンライン検索はサポートしていません。画像コンテンツを使用したコンテキストキャッシュの作成はサポートしています。正常に作成されたキャッシュ呼び出しの使用 Vision モデルは URL 形式の画像をサポートしておらず、現在は Base64 でエンコードされた画像コンテンツのみをサポートしています。

モデルの請求

モデル請求単価moonshot-v1-8k-vision-preview1Mトークン¥12.00moonshot-v1-32k-vision-preview1Mトークン¥24.00moonshot-v1-128k-vision-preview1Mトークン¥60.00

Moonshot-v1-vision-preview モデルのリリースは、Beijing Dark Side of the Moon Technology Co., Ltd. がマルチモーダル人工知能の分野で成し遂げた新たな進歩を示し、画像理解の開発に新たな方向性を提供します。テクノロジー。その強力なパフォーマンスと豊富な機能により、多くのアプリケーションシナリオで幅広い用途が期待でき、今後の開発と応用が期待されます。