现场演示 |演示视频
消息 | 描述 |
---|---|
Kaggle 场景发布 | 我们发布了Kaggle Agent ,请尝试新功能! |
官方微信群发布 | 我们建了一个微信群,欢迎加入! (?二维码) |
官方不和谐版本 | 我们在 Discord 中推出了第一个聊天频道(?) |
首次发布 | RDAgent在 GitHub 上发布 |
RDAgent旨在实现工业研发流程中最关键和最有价值的方面的自动化,我们首先关注数据驱动的场景,以简化模型和数据的开发。在方法论上,我们确定了一个包含两个关键组成部分的框架:“R”用于提出新想法,“D”用于实施它们。我们相信,研发的自动发展将带来具有重大工业价值的解决方案。
研发是一个非常普遍的场景。 RDAgent 的出现可以为您带来
自动定量工厂(?演示视频|
YouTube)
数据挖掘代理:迭代地提出数据和模型(?演示视频 1|
YouTube) (?演示视频 2|
YouTube)并通过从数据中获取知识来实施它们。
研究副驾驶:自动阅读研究论文(?演示视频|
YouTube)/财务报告(?演示视频|
YouTube)并实现模型结构或构建数据集。
Kaggle Agent:自动模型调整和特征工程(?演示视频即将推出...)并实施它们以在比赛中取得更多成绩。
...
您可以点击上面的链接来查看演示。我们不断向项目添加更多方法和场景,以增强您的研发流程并提高生产力。
此外,您可以仔细查看我们的?️ 现场演示中的示例。
您可以通过运行以下命令来尝试上面的演示:
用户必须确保在尝试大多数场景之前安装了 Docker。请参阅官方的 ?Docker 页面以获取安装说明。
使用 Python 创建一个新的 conda 环境(3.10 和 3.11 在我们的 CI 中经过了充分测试):
conda 创建-n rdagent python=3.10
激活环境:
conda 激活 rdagent
您可以直接从 PyPI 安装 RDAgent 包:
pip 安装 rdagent
您必须在.env
中配置 GPT 模型
cat << EOF > .envOPENAI_API_KEY=# EMBEDDING_MODEL=text-embedding-3-smallCHAT_MODEL=gpt-4-turboEOF
?️ Live Demo是通过以下命令实现的(每一项代表一个demo,您可以选择您喜欢的):
运行自动量化交易和迭代因子进化:Qlib自循环因子提案和实施应用程序
rdagent fin_factor
运行自动量化交易和迭代模型演化:Qlib自循环模型提案和实施应用
rdagent fin_model
运行自动医疗预测模型演进:医疗自循环模型提案和实施应用
(1) 申请PhysioNet帐户。
(2)请求访问FIDDLE预处理数据:FIDDLE Dataset。
(3) 将您的用户名和密码放入.env
中。
cat << EOF >> .envDM_USERNAME=<您的用户名>DM_PASSWORD=<您的密码>EOF
rdagent med_model
Run the Automated Quantitative Trading & Factors Extraction from Financial Reports : 根据财务报告运行 Qlib 因子提取和实施应用程序
# 1. 通常,您可以使用以下命令运行此场景:rdagent fin_factor_report --report_folder=<您的财务报告文件夹路径># 2. 具体来说,您需要先准备一些财务报告。您可以按照这个具体示例:wget https://github.com/SunsetWolf/rdagent_resource/releases/download/reports/all_reports.zip 解压 all_reports.zip -d git_ignore_folder/reports rdagent fin_factor_report --report_folder=git_ignore_folder/报告
运行自动化模型研发副驾驶:模型提取和实施应用程序
# 1. 一般来说,您可以使用以下命令运行自己的论文/报告:rdagent generic_model# 2. 具体来说,您可以这样做。有关更多详细信息和其他论文示例,请使用 `rdagent generic_model -h`:rdagent general_model "https://arxiv.org/pdf/2210.09789"
运行自动化 Kaggle 模型调整和特征工程:自循环模型提案和特征工程实施应用
注意:除非您在本地准备数据,否则此应用程序将自动下载 Kaggle 比赛数据。如果您本地没有数据,则需要在Kaggle网站上配置Kaggle API并同意相应的竞赛规则。
# 1. 竞赛名称必须与Kaggle平台上API使用的名称一致。rdagent kaggle --competition [your-competition-name]# 2. 具体可以如下填写竞赛名称:# 下载竞赛描述文件到本地目录wget https://github.com/SunsetWolf/rdagent_resource/releases/download/kaggle_data/kaggle_data.zip# 将文件解压到本地目录unzip kaggle_data.zip -d /your/local/directory/kaggle_data# 设置环境变量export LOCAL_DATA_PATH=/your/local/directory/kaggle_data/kaggle # 运行应用程序rdagent kaggle --competition sf-crime
可用的竞赛列表可在此处找到。
有关更多详细信息,您可以参考示例指南。
您可以通过运行以下命令来为我们的演示应用程序提供监控 RD 循环的服务:
rdagent ui --port 80 --log_dir <您的日志文件夹,例如“log/”>
我们已将RD-Agent应用到多个有价值的数据驱动的行业场景中。
在这个项目中,我们的目标是构建一个代理来自动化数据驱动的研发,可以
阅读现实世界的材料(报告、论文等)并提取关键公式、感兴趣的特征和模型的描述,这是数据驱动研发的关键组成部分。
在可运行代码中实现提取的公式(例如特征、因子和模型)。
由于LLM一次性实施的能力有限,请为代理建立一个不断发展的流程,通过从反馈和知识中学习来提高绩效。
根据当前的知识和观察提出新的想法。
在数据驱动场景的两个关键领域——模型实现和数据构建,我们的系统旨在服务两个主要角色:“Copilot”和“Agent”。
副驾驶按照人类指令自动执行重复性任务。
代理人更加自主,积极提出想法,以求未来取得更好的结果。
支持的场景如下:
场景/目标 | 模型实现 | 数据建设 |
---|---|---|
金融 | 迭代提出想法并不断发展 | 迭代提出想法并不断发展 自动报告阅读和实施 |
医疗的 | 迭代提出想法并不断发展 | - |
一般的 | 自动论文阅读与实现 自动 Kaggle 模型调整 | Auto Kaggle 特征工程 |
RoadMap :目前,我们正在努力为Kaggle场景添加新功能。
不同场景的入口和配置有所不同。请查看场景文档中的详细设置教程。
这里是一个成功探索的画廊(5 条痕迹显示在?️ Live Demo中)。您可以使用以下命令下载并查看执行跟踪:
rdagent ui --端口 80 --log_dir ./demo_traces
有关场景的更多详细信息,请参阅?readthedocs_scen 。
数据科学中的研发流程自动化是行业中一个非常有价值但尚未充分开发的领域。我们提出了一个框架来突破这一重要研究领域的界限。
该框架内的研究问题可分为三大类:
研究领域 | 论文/工作清单 |
---|---|
研发能力对标 | 基准 |
创意提案:探索新创意或完善现有创意 | 研究 |
实现想法的能力:实施和执行想法 | 发展 |
我们认为,提供高质量解决方案的关键在于不断发展研发能力。智能体应该像人类专家一样学习,不断提高研发技能。
更多文档可以在?阅读文档。
迈向以数据为中心的自动化研发
@misc{chen2024datacentric,title={迈向以数据为中心的自动化研发},author={陈浩天、沉新杰、叶泽奇、冯文军、王浩学、杨晓、杨旭、刘伟清、边江},year={ 2024},eprint={2404.11276},archivePrefix={arXiv},primaryClass={cs.AI}}
在数据挖掘专家的日常研发过程中,他们提出假设(例如,像RNN这样的模型结构可以捕获时间序列数据中的模式),设计实验(例如,金融数据包含时间序列,我们可以验证假设)在这种情况下),将实验实现为代码(例如,Pytorch模型结构),然后执行代码以获得反馈(例如,指标、损失曲线等)。专家们从反馈中学习并在下一次迭代中进行改进。
基于上述原则,我们建立了一个基本的方法框架,不断提出假设,验证假设,并从现实世界的实践中获得反馈。这是第一个支持与现实世界验证链接的科研自动化框架。
欲了解更多详情,请参阅我们的?️ 现场演示页面。
以数据为中心的自动开发的协作演进策略
@misc{yang2024collaborative,title={以数据为中心的自动开发的协作演进策略},author={Xu Yang、Haotian Chen、Wenjun Feng、Haoxue Wang、Zeqi Ye、Xinjie Shen、Xiao Yang、Shizhao Sun、Weiqing Liu 和 Jiang Bian},year={2024},eprint={2407.18690},archivePrefix={arXiv},primaryClass={cs.AI}}
该项目欢迎贡献和建议。为这个项目做出贡献是简单且有益的。无论是解决问题、解决错误、增强文档,甚至纠正拼写错误,每项贡献都是有价值的,并且有助于改进 RDAgent。
首先,您可以浏览问题列表,或通过运行命令grep -r "TODO:"
在代码库中搜索TODO:
注释。
在我们在 GitHub 上将 RD-Agent 作为开源项目发布之前,它是我们小组内的一个内部项目。不幸的是,当我们删除一些机密代码时,内部提交历史记录没有保留。因此,我们小组成员的一些贡献,包括Haotian Chen、Wenjun Feng、Haoxue Wang、Zeqi Ye、Xinjie Shen和Jinhui Li,没有包含在公共提交中。
RD 代理“按原样”提供,不提供任何明示或暗示的保证,包括但不限于适销性、特定用途的适用性和不侵权的保证。 RD 代理旨在促进金融行业的研究和开发过程,但不适合用于任何金融投资或建议。用户应独立评估和测试RD-Agent在特定使用场景下的风险,确保负责任地使用AI技术,包括但不限于制定和集成风险缓解措施,并遵守所有适用的法律法规。司法管辖区。 RD 代理不提供财务意见或反映 Microsoft 的意见,也不旨在取代合格的财务专业人员在制定、评估和批准金融产品方面的作用。 RD 代理的输入和输出属于用户,用户应承担任何责任理论下的所有责任,无论是合同、侵权、监管、疏忽、产品责任还是其他与 RD 代理的使用相关的责任,以及其任何输入和输出。