Zhipu AI オープンソースエージェントタスクモデル CogAgent-9B: スクリーンショットによる操作の予測

著者：Eve Cole 更新時間：2024-12-27 11:48:01

Zhipu AI は、GLM-4V-9B トレーニングに基づいた CogAgent-9B モデルをオープンソース化しました。これは、スクリーンショットを通じてユーザーの指示を理解し、次の GUI 操作を予測できるエージェントタスクモデルです。このモデルは汎用性が高く、パソコン、携帯電話、自動車などのさまざまな GUI インタラクションシナリオに適しています。以前のバージョンと比較して、CogAgent-9B-20241220 は多くの点で大幅に改善され、中国語と英語のバイリンガルをサポートし、詳細な思考プロセス、行動の説明、感性判断を出力できるようになりました。複数のデータセットで優れた結果を達成し、GUI の位置決め、シングルステップおよびマルチステップ操作における利点を実証しています。オープンソースの CogAgent-9B は、大型モデル技術の開発を促進するだけでなく、視覚障害者に新たな可能性を提供します。

微信截图_20241227091131.png

2023 年 12 月にオープンソース化された CogAgent モデルの最初のバージョンと比較して、CogAgent-9B-20241220 は、GUI の認識、推論予測の精度、アクションスペースの完全性、タスクの汎用性と一般化の点で大幅に向上しており、バイリンガルのスクリーンショットと言語をサポートしています。中国語と英語でのやりとり。 CogAgent の入力には、ユーザーの自然言語命令、実行されたアクション履歴記録、および GUI スクリーンショットのみが含まれ、レイアウト情報や追加の要素ラベル情報のテキスト表現は含まれません。出力には、思考プロセス、次のアクションの自然言語記述、次のアクションの構造化記述、次のアクションの感性判断が含まれます。

パフォーマンステストでは、CogAgent-9B-20241220 が複数のデータセットで優れた結果を達成し、GUI の位置決め、シングルステップ操作、中国語のステップワイズリスト、およびマルチステップ操作における利点を実証しました。スマートスペクトラムテクノロジーによるこの動きは、大型モデルテクノロジーの開発を促進するだけでなく、視覚障害のある IT 実務者に新しいツールと可能性を提供します。

コード：

https://github.com/THUDM/CogAgent

モデル：

ハギングフェイス: https://huggingface.co/THUDM/cogagent-9b-20241220

Cogagent コミュニティ: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

CogAgent-9B のオープンソースは、大規模モデルのエージェントエコシステムにおける重要な一歩を示します。その効率的な GUI インタラクション機能と幅広い適用性は、インテリジェントインタラクションテクノロジの将来の開発に新たな方向性を提供し、より便利でスマートな将来のアプリケーションシナリオの到来を告げるものでもあります。 CogAgent-9B をベースにしたさらに革新的なアプリケーションが登場することを楽しみにしています。

Zhipu AI オープンソース エージェント タスク モデル CogAgent-9B: スクリーンショットによる操作の予測

Zhipu AI オープンソースエージェントタスクモデル CogAgent-9B: スクリーンショットによる操作の予測