Zhipu AI は最近、ビジュアル言語モデル CogAgent をオープンソース化しました。これは、パラメーター サイズが 180 億で、GUI の理解とナビゲーションにおいて優れたパフォーマンスを備えた強力なツールです。 CogAgent は、高解像度のビジュアル入力と会話型 Q&A をサポートし、GUI スクリーンショットに基づいて Q&A を実行でき、OCR 関連のタスクをサポートします。事前トレーニングと微調整により、ユーザーはスクリーンショットをアップロードしてタスクの推論を実行し、計画、次のアクション、および特定の操作の調整情報を取得できるようになり、より便利で効率的なインタラクティブなエクスペリエンスをユーザーに提供できます。このモデルは複数のベンチマーク テストで SOTA の一般的なパフォーマンスを達成し、ビジュアル言語の分野における技術的リーダーシップを実証しています。
CogAgent のオープン ソースは、AI コミュニティに強力な新しいツールをもたらし、GUI の理解と対話におけるその機能により、多くのアプリケーション シナリオの開発が促進されることが期待されています。 CogAgent は今後さらに多くの分野で重要な役割を果たし、ユーザーにより充実したサービスを提供するために改良を続けていくと考えられます。