Zhipu AI オープンソースのビジュアル言語モデル CogAgent は GUI グラフィカル インターフェイスの質問と回答をサポートします
Zhipu AI は、パラメーター スケールが 180 億のビジュアル言語モデルである CogAgent をオープンソース化しました。 CogAgent は GUI の理解とナビゲーションにおいて優れたパフォーマンスを発揮し、複数のベンチマークで SOTA の一般的なパフォーマンスを達成します。このモデルは、高解像度のビジュアル入力と会話型 Q&A をサポートしており、あらゆるユーザーをターゲットにできます。
2025-01-16