| 日本语 |英语 | 中文简体 | 中文繁体 |
ICLR 2024 论文 SWE-bench 的代码和数据:语言模型能否解决现实世界的 GitHub 问题?
请参阅我们的网站查看公共排行榜和更改日志,了解有关 SWE-bench 基准测试最新更新的信息。
SWE-bench 是评估从 GitHub 收集的现实世界软件问题的大型语言模型的基准。给定代码库和问题,语言模型的任务是生成解决所描述问题的补丁。
要访问 SWE-bench,请复制并运行以下代码:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
要从源代码构建 SWE-bench,请按照下列步骤操作:
cd
到存储库中。conda env create -f environment.yml
以创建名为swe-bench
conda 环境conda activate swe-bench
激活环境您可以直接下载 SWE-bench 数据集(开发、测试集)或从 HuggingFace 下载。
要使用 SWE-Bench,您可以:
数据集 | 型号 |
---|---|
? SWE-长凳 | ? SWE-骆驼 13b |
? “神谕”检索 | ? SWE-Llama 13b (PEFT) |
? BM25检索13K | ? SWE-骆驼 7b |
? BM25检索27K | ? SWE-Llama 7b (PEFT) |
? BM25检索40K | |
? BM25 检索 50K(Llama 代币) |
我们还撰写了以下有关如何使用 SWE-bench 不同部分的博客文章。如果您想查看有关特定主题的帖子,请通过问题告诉我们。
我们很乐意听到更广泛的 NLP、机器学习和软件工程研究社区的意见,并且我们欢迎任何贡献、拉取请求或问题!为此,请提交新的拉取请求或问题并相应地填写相应的模板。我们一定会尽快跟进!
联系人:Carlos E. Jimenez 和 John Yang(电子邮件:{carlosej, jy1682}@princeton.edu)。
如果您发现我们的工作有帮助,请使用以下引文。
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
麻省理工学院。检查LICENSE.md
。