Démo en direct | Vidéo de démonstration
Nouvelles | Description |
---|---|
Sortie du scénario Kaggle | Nous publions Kaggle Agent , essayez les nouvelles fonctionnalités ! |
Sortie officielle du groupe WeChat | Nous avons créé un groupe WeChat, bienvenue à nous rejoindre ! (?Code QR) |
Sortie officielle de Discord | Nous lançons notre première chaîne de discussion sur Discord (?) |
Première version | RDAgent est publié sur GitHub |
RDAgent vise à automatiser les aspects les plus critiques et les plus précieux du processus de R&D industrielle, et nous commençons par nous concentrer sur les scénarios basés sur les données pour rationaliser le développement de modèles et de données. Méthodologiquement, nous avons identifié un cadre comportant deux éléments clés : « R » pour proposer de nouvelles idées et « D » pour les mettre en œuvre. Nous pensons que l’évolution automatique de la R&D conduira à des solutions à forte valeur industrielle.
La R&D est un scénario très général. L'avènement de RDAgent peut être votre
Usine quantique automatique (?Vidéo de démonstration|
YouTube)
Agent d'exploration de données : proposer de manière itérative des données et des modèles (?Vidéo de démonstration 1|
YouTube) (?Vidéo de démonstration 2|
YouTube) et les mettre en œuvre en acquérant des connaissances à partir des données.
Copilote de recherche : lecture automatique des articles de recherche (?Vidéo de démonstration|
YouTube) / rapports financiers (?Vidéo de démonstration|
YouTube) et mettre en œuvre des structures de modèles ou créer des ensembles de données.
Kaggle Agent : réglage automatique des modèles et ingénierie des fonctionnalités (? Vidéo de démonstration à venir...) et leur mise en œuvre pour obtenir plus de résultats dans les compétitions.
...
Vous pouvez cliquer sur les liens ci-dessus pour voir la démo. Nous ajoutons continuellement de nouvelles méthodes et scénarios au projet pour améliorer vos processus de R&D et augmenter votre productivité.
De plus, vous pouvez examiner de plus près les exemples dans notre ?️ Live Demo .
Vous pouvez essayer les démos ci-dessus en exécutant la commande suivante :
Les utilisateurs doivent s'assurer que Docker est installé avant de tenter la plupart des scénarios. Veuillez vous référer à la page officielle ?Docker pour les instructions d'installation.
Créez un nouvel environnement conda avec Python (3.10 et 3.11 sont bien testés dans notre CI) :
conda create -n rdagent python=3.10
Activez l'environnement :
conda activer rdagent
Vous pouvez installer directement le package RDAgent depuis PyPI :
pip installer rdagent
Vous devez configurer votre modèle GPT dans le .env
cat << EOF > .envOPENAI_API_KEY=# EMBEDDING_MODEL=text-embedding-3-smallCHAT_MODEL=gpt-4-turboEOF
La ?️ Live Demo est implémentée par les commandes suivantes (chaque élément représente une démo, vous pouvez sélectionner celle que vous préférez) :
Exécuter le trading quantitatif automatisé et l'évolution des facteurs itératifs : application de proposition et d'implémentation de facteurs d'auto-boucle Qlib
rdagent fin_factor
Exécuter le trading quantitatif automatisé et l'évolution du modèle itératif : proposition de modèle en boucle automatique Qlib et application de mise en œuvre
rdagent fin_model
Exécuter l' évolution du modèle de prédiction médicale automatisé : proposition de modèle médical en boucle automatique et application de mise en œuvre
(1) Demandez un compte chez PhysioNet.
(2) Demander l'accès aux données prétraitées FIDDLE : FIDDLE Dataset.
(3) Placez votre nom d'utilisateur et votre mot de passe dans.env
.
cat << EOF >> .envDM_USERNAME=DM_PASSWORD= EOF
rdagent med_model
Exécutez le trading quantitatif automatisé et l'extraction de facteurs à partir des rapports financiers : Exécutez l'application d'extraction et de mise en œuvre de facteurs Qlib basée sur les rapports financiers.
# 1. Généralement, vous pouvez exécuter ce scénario à l'aide de la commande suivante :rdagent fin_factor_report --report_folder=# 2. Plus précisément, vous devez d'abord préparer certains rapports financiers. Vous pouvez suivre cet exemple concret :wget https://github.com/SunsetWolf/rdagent_resource/releases/download/reports/all_reports.zip décompressez all_reports.zip -d git_ignore_folder/reports rdagent fin_factor_report --report_folder=git_ignore_folder/reports
Exécuter le copilote de recherche et développement de modèles automatisés : application d'extraction et d'implémentation de modèles
# 1. Généralement, vous pouvez exécuter vos propres articles/rapports avec la commande suivante : rdagent general_model# 2. Plus précisément, vous pouvez le faire comme ceci. Pour plus de détails et des exemples de papier supplémentaires, utilisez `rdagent general_model -h`:rdagent general_model "https://arxiv.org/pdf/2210.09789"
Exécutez l' optimisation automatisée du modèle Kaggle et l'ingénierie des fonctionnalités : proposition de modèle en boucle automatique et application de mise en œuvre de l'ingénierie des fonctionnalités
Remarque : Cette application téléchargera automatiquement les données de la compétition Kaggle, sauf si vous préparez les données localement. Si vous ne disposez pas des données localement, vous devez configurer l'API Kaggle et accepter les règles du concours correspondantes sur le site Kaggle.
# 1. le nom du concours doit correspondre au nom utilisé avec l'API sur la plateforme Kaggle.rdagent kaggle --competition [your-competition-name]# 2. Plus précisément, vous pouvez remplir le nom du concours comme suit :# télécharger le concours fichiers de description dans votre répertoire localwget https://github.com/SunsetWolf/rdagent_resource/releases/download/kaggle_data/kaggle_data.zip# décompressez les fichiers dans votre répertoire localunzip kaggle_data.zip -d /your/local/directory/kaggle_data# set environnement variablesexport LOCAL_DATA_PATH=/your/local/directory/kaggle_data/kaggle # exécutez l'applicationrdagent kaggle --competition sf-crime
La liste des compétitions disponibles peut être consultée ici.
Pour plus de détails, vous pouvez vous référer au guide d'exemple.
Vous pouvez servir notre application de démonstration pour surveiller la boucle RD en exécutant la commande suivante :
rdagent ui --port 80 --log_dir
Nous avons appliqué RD-Agent à plusieurs scénarios industriels précieux basés sur des données.
Dans ce projet, nous visons à créer un agent pour automatiser la R&D basée sur les données qui peut
Lire du matériel du monde réel (rapports, articles, etc.) et extraire des formules clés, des descriptions des fonctionnalités et des modèles intéressés, qui sont les éléments clés de la R&D basée sur les données.
Implémentez les formules extraites (par exemple, fonctionnalités, facteurs et modèles) dans des codes exécutables.
En raison de la capacité limitée de LLM à mettre en œuvre en même temps, créez un processus évolutif permettant à l'agent d'améliorer ses performances en apprenant des commentaires et des connaissances.
Proposer de nouvelles idées basées sur les connaissances et observations actuelles.
Dans les deux domaines clés des scénarios basés sur les données, de la mise en œuvre de modèles et de la création de données, notre système vise à remplir deux rôles principaux : Copilote et Agent.
Le ?Copilot suit les instructions humaines pour automatiser les tâches répétitives.
L'Agent, étant plus autonome, propose activement des idées pour de meilleurs résultats à l'avenir.
Les scénarios pris en charge sont répertoriés ci-dessous :
Scénario/Cible | Mise en œuvre du modèle | Création de données |
---|---|---|
Finance | Proposer des idées de manière itérative et évoluer | Proposer des idées de manière itérative et évoluer Lecture et mise en œuvre automatique des rapports |
Médical | Proposer des idées de manière itérative et évoluer | - |
Général | Lecture et mise en œuvre automatique du papier Réglage automatique du modèle Kaggle | Ingénierie des fonctionnalités Auto Kaggle |
RoadMap : Actuellement, nous travaillons dur pour ajouter de nouvelles fonctionnalités au scénario Kaggle.
Différents scénarios varient en entrée et en configuration. Veuillez consulter le didacticiel de configuration détaillé dans les documents de scénarios.
Voici une galerie d'explorations réussies (5 traces présentées dans ?️ Live Demo ). Vous pouvez télécharger et visualiser la trace d'exécution à l'aide de la commande ci-dessous :
rdagent ui --port 80 --log_dir ./demo_traces
Veuillez vous référer à ?readthedocs_scen pour plus de détails sur les scénarios.
L’automatisation du processus de R&D en science des données est un domaine très précieux mais sous-exploré dans l’industrie. Nous proposons un cadre pour repousser les limites de cet important domaine de recherche.
Les questions de recherche dans ce cadre peuvent être divisées en trois catégories principales :
Domaine de recherche | Liste de papiers/travail |
---|---|
Benchmarker les capacités de R&D | Référence |
Proposition d'idées : explorer de nouvelles idées ou affiner celles existantes | Recherche |
Capacité à concrétiser des idées : mettre en œuvre et exécuter des idées | Développement |
Nous pensons que la clé pour fournir des solutions de haute qualité réside dans la capacité à faire évoluer les capacités de R&D. Les agents doivent apprendre comme des experts humains, en améliorant continuellement leurs compétences en R&D.
Plus de documents peuvent être trouvés dans le ? lire la documentation .
Vers une R&D automatique centrée sur les données
@misc{chen2024datacentric,title={Vers une R&D automatique centrée sur les données},author={Haotian Chen et Xinjie Shen et Zeqi Ye et Wenjun Feng et Haoxue Wang et Xiao Yang et Xu Yang et Weiqing Liu et Jiang Bian},year={ 2024},eprint={2404.11276},archivePrefix={arXiv},primaryClass={cs.AI}}
Dans le processus quotidien de recherche et de développement d'un expert en exploration de données, il propose une hypothèse (par exemple, une structure de modèle comme RNN peut capturer des modèles dans des données de séries chronologiques), concevoir des expériences (par exemple, les données financières contiennent des séries chronologiques et nous pouvons vérifier l'hypothèse). dans ce scénario), implémentez l'expérience sous forme de code (par exemple, structure du modèle Pytorch), puis exécutez le code pour obtenir des commentaires (par exemple, métriques, courbe de perte, etc.). Les experts apprennent des commentaires et s’améliorent lors de la prochaine itération.
Sur la base des principes ci-dessus, nous avons établi un cadre méthodologique de base qui propose en permanence des hypothèses, les vérifie et obtient des commentaires de la pratique du monde réel. Il s'agit du premier cadre d'automatisation de la recherche scientifique qui prend en charge la liaison avec la vérification du monde réel.
Pour plus de détails, veuillez vous référer à notre page ?️ Démo en direct .
Stratégie collaborative évolutive pour un développement automatique centré sur les données
@misc{yang2024collaborative,title={Stratégie collaborative évolutive pour un développement automatique centré sur les données},author={Xu Yang et Haotian Chen et Wenjun Feng et Haoxue Wang et Zeqi Ye et Xinjie Shen et Xiao Yang et Shizhao Sun et Weiqing Liu et Jiang Bian},year={2024},eprint={2407.18690},archivePrefix={arXiv},primaryClass={cs.AI}}
Ce projet accueille les contributions et suggestions. Contribuer à ce projet est simple et enrichissant. Qu'il s'agisse de résoudre un problème, de corriger un bug, d'améliorer la documentation ou même de corriger une faute de frappe, chaque contribution est précieuse et contribue à améliorer RDAgent.
Pour commencer, vous pouvez explorer la liste des problèmes ou rechercher des commentaires TODO:
dans la base de code en exécutant la commande grep -r "TODO:"
.
Avant de publier RD-Agent en tant que projet open source sur GitHub, il s'agissait d'un projet interne au sein de notre groupe. Malheureusement, l'historique des validations internes n'a pas été préservé lorsque nous avons supprimé du code confidentiel. En conséquence, certaines contributions des membres de notre groupe, notamment Haotian Chen, Wenjun Feng, Haoxue Wang, Zeqi Ye, Xinjie Shen et Jinhui Li, n'ont pas été incluses dans les engagements publics.
L'agent RD est fourni « tel quel », sans garantie d'aucune sorte, expresse ou implicite, y compris, mais sans s'y limiter, les garanties de qualité marchande, d'adéquation à un usage particulier et de non-contrefaçon. L'agent RD vise à faciliter le processus de recherche et de développement dans le secteur financier et n'est pas prêt à l'emploi pour tout investissement ou conseil financier. Les utilisateurs doivent évaluer et tester de manière indépendante les risques de l'agent RD dans un scénario d'utilisation spécifique, garantir l'utilisation responsable de la technologie d'IA, y compris, mais sans s'y limiter, le développement et l'intégration de mesures d'atténuation des risques, et se conformer à toutes les lois et réglementations applicables dans tous les domaines applicables. juridictions. L'agent RD ne fournit pas d'opinions financières ni ne reflète les opinions de Microsoft, et n'est pas non plus conçu pour remplacer le rôle de professionnels financiers qualifiés dans la formulation, l'évaluation et l'approbation des produits financiers. Les entrées et sorties de l'agent RD appartiennent aux utilisateurs et les utilisateurs assumeront toute responsabilité en vertu de toute théorie de responsabilité, qu'elle soit contractuelle, délictuelle, réglementaire, de négligence, de responsabilité du fait des produits ou autre, associée à l'utilisation de l'agent RD et toutes les entrées et sorties de celui-ci.