Zhipu AI オープンソースのビジュアル言語モデル CogAgent は GUI グラフィカルインターフェイスの質問と回答をサポートします

著者：Eve Cole 更新時間：2025-01-16 14:16:01

Zhipu AI は最近、ビジュアル言語モデル CogAgent をオープンソース化しました。これは、パラメーターサイズが 180 億で、GUI の理解とナビゲーションにおいて優れたパフォーマンスを備えた強力なツールです。 CogAgent は、高解像度のビジュアル入力と会話型 Q&A をサポートし、GUI スクリーンショットに基づいて Q&A を実行でき、OCR 関連のタスクをサポートします。事前トレーニングと微調整により、ユーザーはスクリーンショットをアップロードしてタスクの推論を実行し、計画、次のアクション、および特定の操作の調整情報を取得できるようになり、より便利で効率的なインタラクティブなエクスペリエンスをユーザーに提供できます。このモデルは複数のベンチマークテストで SOTA の一般的なパフォーマンスを達成し、ビジュアル言語の分野における技術的リーダーシップを実証しています。

CogAgent のオープンソースは、AI コミュニティに強力な新しいツールをもたらし、GUI の理解と対話におけるその機能により、多くのアプリケーションシナリオの開発が促進されることが期待されています。 CogAgent は今後さらに多くの分野で重要な役割を果たし、ユーザーにより充実したサービスを提供するために改良を続けていくと考えられます。

Zhipu AI オープンソースのビジュアル言語モデル CogAgent は GUI グラフィカル インターフェイスの質問と回答をサポートします

Zhipu AI オープンソースのビジュアル言語モデル CogAgent は GUI グラフィカルインターフェイスの質問と回答をサポートします