人工知能の分野では、革新的なブレークスルーがコンピューターとの対話方法を再構築しています。 Kunlun Wanweiは、北京Zhiyuan人工知能研究所、シンガポールナンヤンテクノロジー大学、北京大学などのトップ機関と手を組んで、Cradleと呼ばれる汎用コンピューター制御フレームワークを共同で開始しました。この革新的なAIフレームワークは、従来のエージェントの制限を突破し、キーボードやマウスのように人間のように直接操作できるようになり、内部APIに依存せずにさまざまなオープンソースソフトウェアとシームレスに対話できます。 Cradleは、複数の商用ゲームを同時に制御し、さまざまなソフトウェアアプリケーションを運営することができる最初のAIフレームワークであるという点でユニークです。新しい活力。
クレードルは実際のアプリケーションで驚くべきものであり、多くの異なるタイプのゲームで優れた機能を示しています。 Red Dead 2で40分間のメインミッションを完了し、Stardew Valleyに綿密に世話をしている農場から買い物をすることから、都市のスカイラインに何千人もの人々と一緒に町を建設することから、Pawnshop Life 2のクライアントとの複雑な交渉まで、 。それだけでなく、Chrome、Outlook、Feishuなどの毎日のオフィスソフトウェアにも熟練している可能性があり、プロの写真編集やビデオ編集を実行し、本当に総合的なAIアシスタントになります。
クレードルの成功は、情報収集、自己反省、タスク推論、スキル管理、アクション計画、メモリモジュールの6つのコアコンポーネントで構成される絶妙なシステムアーキテクチャのおかげです。元の入力と出力を巧みにカプセル化して抽象化することにより、クレードルはコンピューターとの自然な相互作用を可能にします。画面に表示されるビデオ画像をメインの入力ソースとして使用し、意思決定のためにテキストと視覚情報を抽出し、キーボードとマウスを制御する出力シグナルを使用します。クレードルの意思決定と推論モジュールは、ソフトウェアと完全なタスクと自発的に相互作用し、過去を反映して動作し、現在を要約し、未来を計画し、人間のような思考モデルを示すことができることに特に言及する価値があります。
実際のテストでは、クレードルのパフォーマンスはその汎用性を完全に証明しています。完全に異なるスタイルと操作方法を備えたゲームで複雑なタスクを完了することができ、アカデミックペーパーのダウンロード、電子メールの送信、画像処理、ビデオ編集など、一般的なソフトウェアで簡単にさまざまなタスクを実行できます。さらに注目に値するのは、Cradleが挑戦的なベンチマークOsworldテストでTruth Tagsを使用してベースラインメソッドを打ち負かし、その強力な学習能力と適応性を示していることです。
クレードルの発売は、GCCエージェントの開発における重要なステップです。統一された入力および出力インターフェイスの開発を促進するだけでなく、さまざまな環境でエージェントの将来の相互作用と自己改善のための強固な基盤を置いているだけでなく、一般的な人工知能(AGI)の目標を達成するための重要な一歩を踏み出します。この革新的なフレームワークの誕生は、コンピューターとの対話方法に革命をもたらし、人間コンピューターのコラボレーションの新しい時代を開くでしょう。
プロジェクトホームページ:https://baai-agents.github.io/cradle
コードリンク:https://github.com/baai-agents/cradle