[ウェブサイト] [arxiv] [pdf]
クレードルフレームワークは、初期の基礎モデルが、同じ統一されたインターフェイスの人間の使用、つまり入力としてのスクリーンショット、キーボード&マウス操作を出力として複雑なコンピュータータスクを実行できるようにします。
上のビデオサムネイルのいずれかをクリックして、YouTubeで視聴します。
現在、OpenaiとClaudeのAPIへのアクセスを提供しています。キーを保存するために、リポジトリのルートに.env
ファイルを作成してください(そのうちの1つで十分です)。
SAMPLE .env
ファイルを含む個人情報を含む:
OA_OPENAI_KEY = "abc123abc123abc123abc123abc123ab"
RF_CLAUDE_AK = "abc123abc123abc123abc123abc123ab" # Access Key for Claude
RF_CLAUDE_SK = "123abc123abc123abc123abc123abc12" # Secret Access Key for Claude
AZ_OPENAI_KEY = "123abc123abc123abc123abc123abc12"
AZ_BASE_URL = "https://abc123.openai.azure.com/"
RF_CLAUDE_AK = "abc123abc123abc123abc123abc123ab"
RF_CLAUDE_SK = "123abc123abc123abc123abc123abc12"
IDE_NAME = "Code"
OA_OPENAI_KEYはOpenai APIキーです。 Openaiから入手できます。
AZ_OPENAI_KEYはAzure Openai APIキーです。 Azureポータルから入手できます。
OA_CLAUDE_KEYは人類のClaude APIキーです。人類から入手できます。
rf_claude_akとrf_claude_skは、Claude APIのRestful APIキーとシークレットキーです。
IDE_NAMEとは、 PyCharm
やCode
(VSCODE)などのリポジトリのコードが実行されるIDE環境を指します。主に、IDEとターゲット環境間の自動スイッチングを有効にするために使用されます。
Python環境をセットアップして、必要な依存関係を次のようにインストールしてください。
# Clone the repository
git clone https://github.com/BAAI-Agents/Cradle.git
cd Cradle
# Create a new conda environment
conda create --name cradle-dev python=3.10
conda activate cradle-dev
pip install -r requirements.txt
1. Option 1
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_lg
or
# pip install .tar.gz archive or .whl from path or URL
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1.tar.gz
2. Option 2
# Copy this url https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1.tar.gz
# Paste it in the browser and download the file to res/spacy/data
cd res/spacy/data
pip install en_core_web_lg-3.7.1.tar.gz
各ゲームとソフトウェアの間に大きな違いがあるため、以下の各ゲームに特定の設定を提供しました。
一部のユーザーは私たちのフレームワークを新しいゲームに適用したいと思うかもしれませんが、このセクションでは、主にゆりかごのコアディレクトリと組織構造を紹介します。 「新しいゲームへの移行に関連するモジュール」で強調し、後で詳細な説明を提供します。
Cradle
├── cache # Cache the GroundingDino model and the bert-base-uncased model
├── conf # The configuration files for the environment and the llm model
│ ├── env_config_dealers.json
│ ├── env_config_rdr2_main_storyline.json
│ ├── env_config_rdr2_open_ended_mission.json
│ ├── env_config_skylines.json
│ ├── env_config_stardew_cultivation.json
│ ├── env_config_stardew_farm_clearup.json
│ ├── env_config_stardew_shopping.json
│ ├── openai_config.json
│ ├── claude_config.json
│ ├── restful_claude_config.json
│ └── ...
├── deps # The dependencies for the Cradle framework, ignore this folder
├── docs # The documentation for the Cradle framework, ignore this folder
├── res # The resources for the Cradle framework
│ ├── models # Ignore this folder
│ ├── tool # Subfinder for RDR2
│ ├── [game or software] # The resources for game, exmpale: rdr2, dealers, skylines, stardew, outlook, chrome, capcut, meitu, feishu
│ │ ├── prompts # The prompts for the game
│ │ │ └── templates
│ │ │ ├── action_planning.prompt
│ │ │ ├── information_gathering.prompt
│ │ │ ├── self_reflection.prompt
│ │ │ └── task_inference.prompt
│ │ ├── skills # The skills json for the game, it will be generated automatically
│ │ ├── icons # The icons difficult for GPT-4 to recognize in the game can be replaced with text for better recognition using an icon replacer
│ │ └── saves # Save files in the game
│ └── ...
├── requirements.txt # The requirements for the Cradle framework
├── runner.py # The main entry for the Cradle framework
├── cradle # Cradle's core modules
│ ├── config # The configuration for the Cradle framework
│ ├── environment # The environment for the Cradle framework
│ │ ├── [game or software] # The environment for the game, exmpale: rdr2, dealers, skylines, stardew, outlook, chrome, capcut, meitu, feishu
│ │ │ ├── __init__.py # The initialization file for the environment
│ │ │ ├── atomic_skills # Atomic skills in the game. Users should customise them to suit the needs of the game or software, e.g. character movement
│ │ │ ├── composite_skills # Combination skills for atomic skills in games or software
│ │ │ ├── skill_registry.py # The skill registry for the game. Will register all atomic skills and composite skills into the registry.
│ │ │ └── ui_control.py # The UI control for the game. Define functions to pause the game and switch to the game window
│ │ └── ...
│ ├── gameio # Interfaces that directly wrap the skill registry and ui control in the environment
│ ├── log # The log for the Cradle framework
│ ├── memory # The memory for the Cradle framework
│ ├── module # Currently there is only the skill execution module. Later will migrate action planning, self-reflection and other modules from planner and provider
│ ├── planner # The planner for the Cradle framework. Unified interface for action planning, self-reflection and other modules. This module will be deleted later and will be moved to the module module.
│ ├── runner # The logical flow of execution for each game and software. All game and software processes will then be unified into a single runner
│ ├── utils # Defines some helper functions such as save json and load json
│ └── provider # The provider for the Cradle framework. We have semantically decomposed most of the execution flow in the runner into providers
│ ├── augment # Methods for image augmentation
│ ├── llm # Call for the LLM model, e.g. OpenAI's GPT-4o, Claude, etc.
│ ├── module # The module for the Cradle framework. e.g., action planning, self-reflection and other modules. It will be migrated to the cradle/module later.
│ ├── object_detect # Methods for object detection
│ ├── process # Methods for pre-processing and post-processing for action planning, self-reflection and other modules
│ ├── video # Methods for video processing
│ ├── others # Methods for other operations, e.g., save and load coordinates for skylines
│ ├── circle_detector.py # The circle detector for the rdr2
│ ├── icon_replacer.py # Methods for replacing icons with text
│ ├── sam_provider.py # Segment anything for software
│ └── ...
└── ...
各ゲームの設定と互換性のあるオペレーティングシステムは異なるため、クレードルは1つのゲーム名を置き換えて新しいゲームに移行することはできません。各ゲームを具体的に検討することをお勧めします。たとえば、独立したAAAゲームであるRDR2にはリアルタイムの戦闘が必要なため、GPT-4oの応答を待つためにゲームを一時停止し、ゲームを実行してアクションを実行する必要があります。 Stardewには同じ問題があります。ディーラーのLife 2やCities:Skylinesにはリアルタイムの要件がないなど、他のゲームは一時停止する必要はありません。新しいゲームが後者に似ている場合は、都市をコピーすることをお勧めします。Skylinesの実装と、対応するモジュールを作成するための実装パスに従います。各ゲームは大きく異なる場合がありますが、クレードルフレームワークはゲームの統一された適応を達成することができます。新しいゲームの名前が新しいゲームであると仮定すると、特定の移行パイプラインが新しいゲームガイドに移行することがわかります。
あなたが私たちの仕事が役立つと思うなら、私たちを引用することを検討してください!
@article{tan2024cradle,
title={Cradle: Empowering Foundation Agents towards General Computer Control},
author={Weihao Tan and Wentao Zhang and Xinrun Xu and Haochong Xia and Ziluo Ding and Boyu Li and Bohan Zhou and Junpeng Yue and Jiechuan Jiang and Yewen Li and Ruyi An and Molei Qin and Chuqiao Zong and Longtao Zheng and Yujie Wu and Xiaoqiang Chai and Yifei Bi and Tianbao Xie and Pengjie Gu and Xiyun Li and Ceyao Zhang and Long Tian and Chaojie Wang and Xinrun Wang and Börje F. Karlsson and Bo An and Shuicheng Yan and Zongqing Lu},
journal={arXiv preprint arXiv:2403.03186},
year={2024}
}