アリババ、マルチモーダル推論モデル QVQ-72B をリリース!視覚能力と言語能力の両方が向上し、複雑な問題も簡単に解決できるようになります

著者：Eve Cole 更新時間：2024-12-27 16:16:01

アリババが新たにリリースした QVQ-72B マルチモーダル推論モデルは、Qwen2-VL-72B に基づいて構築されており、視覚的推論、数学、科学の問題で優れたパフォーマンスを示します。言語と視覚情報を融合し、複数ステップの推論を実行し、複雑な問題を解決することができます。物理的な問題や複雑な数学的推論における因果関係の導出に特に優れており、エラー率を大幅に削減し、明確な問題解決ステップを提供します。また、QVQ-72B は、技術レポートや複雑なチャート分析の処理において重要な情報を効率的かつ正確に抽出する能力を発揮し、正確な画像詳細認識機能を備えており、インテリジェント監視や自動運転などの分野に応用できます。

QVQ-72B は、マルチモーダル AI の分野で大きな進歩を遂げ、その強力な推論機能は、複雑な問題を解決するための新しいアイデアとツールを提供し、さまざまな業界のインテリジェントなアップグレードに新たな推進力をもたらします。オンライントライアルと詳細な紹介リンクは、https://huggingface.co/spaces/Qwen/QVQ-72B-preview および https://qwenlm.github.io/blog/qvq-72b-preview/ です。 QVQ-72Bの登場により、より多くの分野で人工知能技術の応用と開発が促進されると考えられています。