Downcodes の編集者が MiniCPM-V2.6 のビッグニュースをお届けします。わずか 8B のパラメータを持つこのエンドサイドのマルチモーダル人工知能モデルは、単一画像、複数画像、ビデオ理解の 3 つの分野で 20B 未満のモデルの SOTA 結果を達成しました。これは小型モデルの奇跡と言えます。強力なパフォーマンスを備えているだけでなく、エンドサイド デバイスでの非常に高い操作効率と使いやすさを実現し、GPT-4V に匹敵する新たな可能性をエンドサイド AI アプリケーションにもたらします。 MiniCPM-V2.6 の強力な機能と特徴を詳しく見てみましょう。
MiniCPM-V2.6 のエンドサイド マルチモーダル人工知能モデルには 8B パラメータしかありませんが、20B 未満の単一画像、複数画像、ビデオ理解という 3 つの SOTA (State of the Art、現在の最高レベル) 結果を達成しています。 - エンドサイド AI のモーダル機能が大幅に改善され、GPT-4V レベルと完全に一致しています。
機能の概要は次のとおりです。
モデルの特徴: MiniCPM-V2.6 は、クライアント側で単一画像、複数画像、ビデオの理解などのコア機能の包括的な超越を実現し、リアルタイムのビデオ理解、複数画像の共同理解、その他の機能をクライアント側にもたらします。初めて、複雑な現実世界のシナリオに近づけます。
効率とパフォーマンス: このモデルは小型かつ大型で、GPT-4o のシングル トークン エンコーディング ピクセル密度の 2 倍である非常に高いピクセル密度 (トークン密度) を備えており、エンドサイド デバイスで非常に高い動作効率を実現します。
クライアント側の使いやすさ: このモデルは量子化後に必要なメモリはわずか 6 GB で、クライアント側の推論速度は 1 秒あたり 18 トークンと高く、前世代モデルより 33% 高速であり、複数の言語をサポートしています。そして推論フレームワーク。
機能拡張: MiniCPM-V2.6 は、OCR 機能を使用して、単一画像シーンの高解像度画像分析機能を複数画像およびビデオ シーンに移行し、ビジュアル トークンの数を減らし、リソースを節約します。
推論能力:自転車のシートを調整するための段階的な指示やミームの背後にある溝の特定など、複数の画像の理解と複雑な推論タスクに優れた能力を示します。
マルチグラフ ICL: このモデルは状況に応じた少数ショット学習をサポートし、特定の分野のタスクに迅速に適応でき、出力の安定性を向上させます。
高解像度のビジュアル アーキテクチャ: 統一されたビジュアル アーキテクチャを通じて、モデルの OCR 機能が継続され、単一の画像から複数の画像やビデオへのスムーズな拡張が可能になります。
超低幻覚率: MiniCPM-V2.6 は幻覚評価で優れたパフォーマンスを示し、その信頼性を示しています。
MiniCPM-V2.6 モデルの発売は、エンドサイド AI の開発にとって非常に重要です。これは、マルチモーダル処理能力を向上させるだけでなく、エンドサイド デバイス上で高性能 AI を実現できる可能性を実証します。限られた資源。
MiniCPM-V2.6 オープンソース アドレス:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
ハグフェイス:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollam、vllm 展開チュートリアルのアドレス:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM シリーズのオープンソース アドレス:
https://github.com/OpenBMB/MiniCPM
MiniCPM-V2.6 の登場により、クライアント側の AI テクノロジーの開発が加速したことは間違いありません。その効率的で強力なパフォーマンスと便利なオープンソース手法は、より多くの開発者や研究者に貴重なリソースを提供し、デバイス側 AI アプリケーションのさらなる革新と普及を促進します。 MiniCPM シリーズが将来さらに驚きをもたらすことを楽しみにしています。