[Site Web] [ARXIV] [PDF]
Le Cradle Framework permet aux modèles de fondation naissants pour effectuer des tâches d'ordinateur complexes via la même interface unifiée que les humains utilisent, c'est-à-dire des captures d'écran comme opérations d'entrée et de clavier et de souris que la sortie.
Cliquez sur l'une ou l'autre des miniatures vidéo ci-dessus pour les regarder sur YouTube.
Nous fournissons actuellement l'accès à l'API d'Openai et de Claude. Veuillez créer un fichier .env
dans la racine du référentiel pour stocker les clés (l'une d'entre elles suffit).
Exemple de fichier .env
contenant des informations privées:
OA_OPENAI_KEY = "abc123abc123abc123abc123abc123ab"
RF_CLAUDE_AK = "abc123abc123abc123abc123abc123ab" # Access Key for Claude
RF_CLAUDE_SK = "123abc123abc123abc123abc123abc12" # Secret Access Key for Claude
AZ_OPENAI_KEY = "123abc123abc123abc123abc123abc12"
AZ_BASE_URL = "https://abc123.openai.azure.com/"
RF_CLAUDE_AK = "abc123abc123abc123abc123abc123ab"
RF_CLAUDE_SK = "123abc123abc123abc123abc123abc12"
IDE_NAME = "Code"
Oa_openai_key est la clé API OpenAI. Vous pouvez l'obtenir de l'Openai.
AZ_OPENAI_KEY est la clé AZure OpenAI API. Vous pouvez l'obtenir à partir du portail Azure.
Oa_claude_key est la clé API Claude anthropique. Vous pouvez l'obtenir de l'anthropique.
RF_CLAUDE_AK et RF_CLAUDE_SK sont AWS RESTFUL API Key et Secret Key for Claude API.
IDE_NAME fait référence à l'environnement IDE dans lequel le code du référentiel s'exécute, tel que PyCharm
ou Code
(VScode). Il est principalement utilisé pour permettre la commutation automatique entre l'IDE et l'environnement cible.
Veuillez configurer votre environnement Python et installer les dépendances requises comme:
# Clone the repository
git clone https://github.com/BAAI-Agents/Cradle.git
cd Cradle
# Create a new conda environment
conda create --name cradle-dev python=3.10
conda activate cradle-dev
pip install -r requirements.txt
1. Option 1
# Download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_lg
# pip install .tar.gz archive or .whl from path or URL
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1.tar.gz
2. Option 2
# Copy this url https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1.tar.gz
# Paste it in the browser and download the file to res/spacy/data
cd res/spacy/data
pip install en_core_web_lg-3.7.1.tar.gz
En raison des grandes différences entre chaque jeu et logiciel, nous avons fourni les paramètres spécifiques pour chacun d'eux ci-dessous.
Étant donné que certains utilisateurs peuvent vouloir appliquer notre cadre à de nouveaux jeux, cette section présente principalement les répertoires de base et la structure organisationnelle de Cradle. Nous mettrons en évidence dans "" les modules liés à la migration vers de nouveaux jeux et à fournir des explications détaillées plus tard.
├── cache # Cache the GroundingDino model and the bert-base-uncased model
├── conf # The configuration files for the environment and the llm model
│ ├── env_config_dealers.json
│ ├── env_config_rdr2_main_storyline.json
│ ├── env_config_rdr2_open_ended_mission.json
│ ├── env_config_skylines.json
│ ├── env_config_stardew_cultivation.json
│ ├── env_config_stardew_farm_clearup.json
│ ├── env_config_stardew_shopping.json
│ ├── openai_config.json
│ ├── claude_config.json
│ ├── restful_claude_config.json
│ └── ...
├── deps # The dependencies for the Cradle framework, ignore this folder
├── docs # The documentation for the Cradle framework, ignore this folder
├── res # The resources for the Cradle framework
│ ├── models # Ignore this folder
│ ├── tool # Subfinder for RDR2
│ ├── [game or software] # The resources for game, exmpale: rdr2, dealers, skylines, stardew, outlook, chrome, capcut, meitu, feishu
│ │ ├── prompts # The prompts for the game
│ │ │ └── templates
│ │ │ ├── action_planning.prompt
│ │ │ ├── information_gathering.prompt
│ │ │ ├── self_reflection.prompt
│ │ │ └── task_inference.prompt
│ │ ├── skills # The skills json for the game, it will be generated automatically
│ │ ├── icons # The icons difficult for GPT-4 to recognize in the game can be replaced with text for better recognition using an icon replacer
│ │ └── saves # Save files in the game
│ └── ...
├── requirements.txt # The requirements for the Cradle framework
├── runner.py # The main entry for the Cradle framework
├── cradle # Cradle's core modules
│ ├── config # The configuration for the Cradle framework
│ ├── environment # The environment for the Cradle framework
│ │ ├── [game or software] # The environment for the game, exmpale: rdr2, dealers, skylines, stardew, outlook, chrome, capcut, meitu, feishu
│ │ │ ├── __init__.py # The initialization file for the environment
│ │ │ ├── atomic_skills # Atomic skills in the game. Users should customise them to suit the needs of the game or software, e.g. character movement
│ │ │ ├── composite_skills # Combination skills for atomic skills in games or software
│ │ │ ├── skill_registry.py # The skill registry for the game. Will register all atomic skills and composite skills into the registry.
│ │ │ └── ui_control.py # The UI control for the game. Define functions to pause the game and switch to the game window
│ │ └── ...
│ ├── gameio # Interfaces that directly wrap the skill registry and ui control in the environment
│ ├── log # The log for the Cradle framework
│ ├── memory # The memory for the Cradle framework
│ ├── module # Currently there is only the skill execution module. Later will migrate action planning, self-reflection and other modules from planner and provider
│ ├── planner # The planner for the Cradle framework. Unified interface for action planning, self-reflection and other modules. This module will be deleted later and will be moved to the module module.
│ ├── runner # The logical flow of execution for each game and software. All game and software processes will then be unified into a single runner
│ ├── utils # Defines some helper functions such as save json and load json
│ └── provider # The provider for the Cradle framework. We have semantically decomposed most of the execution flow in the runner into providers
│ ├── augment # Methods for image augmentation
│ ├── llm # Call for the LLM model, e.g. OpenAI's GPT-4o, Claude, etc.
│ ├── module # The module for the Cradle framework. e.g., action planning, self-reflection and other modules. It will be migrated to the cradle/module later.
│ ├── object_detect # Methods for object detection
│ ├── process # Methods for pre-processing and post-processing for action planning, self-reflection and other modules
│ ├── video # Methods for video processing
│ ├── others # Methods for other operations, e.g., save and load coordinates for skylines
│ ├── circle_detector.py # The circle detector for the rdr2
│ ├── icon_replacer.py # Methods for replacing icons with text
│ ├── sam_provider.py # Segment anything for software
│ └── ...
└── ...
Étant donné que les paramètres de chaque jeu et les systèmes d'exploitation avec lesquels ils sont compatibles sont différents, Cradle ne peut pas simplement remplacer un nom de jeu pour migrer vers un nouveau jeu. Nous suggérons de considérer chaque jeu spécifiquement. Par exemple, RDR2, un jeu AAA indépendant, nécessite un combat en temps réel, nous devons donc suspendre le jeu pour attendre la réponse de GPT-4O, puis inébranler le jeu pour exécuter les actions. Stardew a le même problème. D'autres jeux comme la vie et les villes du concessionnaire: les skylines n'ont pas d'exigences en temps réel, elles n'ont donc pas besoin de s'arrêter. Si le nouveau jeu est similaire à ce dernier, nous recommandons de copier les villes: la mise en œuvre de Skylines et la suite de son chemin d'implémentation pour créer les modules correspondants. Bien que chaque jeu puisse différer considérablement, notre cadre de berceau peut toujours réaliser une adaptation unifiée pour un jeu. En supposant que le nom du nouveau jeu est Newgame , le pipeline de migration spécifique peut être trouvé Migrate vers un nouveau guide de jeu.
Si vous trouvez notre travail utile, envisagez de nous citer!
title={Cradle: Empowering Foundation Agents towards General Computer Control},
author={Weihao Tan and Wentao Zhang and Xinrun Xu and Haochong Xia and Ziluo Ding and Boyu Li and Bohan Zhou and Junpeng Yue and Jiechuan Jiang and Yewen Li and Ruyi An and Molei Qin and Chuqiao Zong and Longtao Zheng and Yujie Wu and Xiaoqiang Chai and Yifei Bi and Tianbao Xie and Pengjie Gu and Xiyun Li and Ceyao Zhang and Long Tian and Chaojie Wang and Xinrun Wang and Börje F. Karlsson and Bo An and Shuicheng Yan and Zongqing Lu},
journal={arXiv preprint arXiv:2403.03186},