| 日本语 |英语 | 中文简体 | 中文繁体 |
ICLR 2024 论文 SWE-bench 的代码和数据:语言模型能否解决现实世界的 GitHub 问题?
请参阅我们的网站了解公共排行榜和更改日志,了解有关 SWE-bench 基准测试最新更新的信息。
SWE-bench 是用于评估从 GitHub 收集的现实世界软件问题的大型语言模型的基准。给定代码库和问题,语言模型的任务是生成解决所描述问题的补丁。
要访问 SWE-bench,请复制并运行以下代码:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
SWE-bench 使用 Docker 进行可重复的评估。按照 Docker 设置指南中的说明在您的计算机上安装 Docker。如果您在 Linux 上进行设置,我们建议您还查看安装后步骤。
最后,要从源代码构建 SWE-bench,请按照以下步骤操作:
git clone [email protected]:princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .
通过运行以下命令来测试您的安装:
python -m swebench.harness.run_evaluation
--predictions_path gold
--max_workers 1
--instance_ids sympy__sympy-20590
--run_id validate-gold
警告
在 SWE-bench 上运行快速评估可能会占用大量资源。我们建议在至少具有 120GB 可用存储空间、16GB RAM 和 8 个 CPU 核心的x86_64
计算机上运行评估工具。您可能需要尝试使用--max_workers
参数来找到适合您的计算机的最佳工作线程数,但我们建议使用少于min(0.75 * os.cpu_count(), 24)
。
如果使用 docker 桌面运行,请确保增加虚拟磁盘空间以拥有约 120 GB 可用空间,并将 max_workers 设置为与上述 docker 可用 CPU 一致。
对arm64
机器的支持是实验性的。
使用评估工具通过以下命令评估 SWE-bench Lite 上的模型预测:
python -m swebench.harness.run_evaluation
--dataset_name princeton-nlp/SWE-bench_Lite
--predictions_path < path_to_predictions >
--max_workers < num_workers >
--run_id < run_id >
# use --predictions_path 'gold' to verify the gold patches
# use --run_id to name the evaluation run
此命令将在当前目录中生成 docker 构建日志 ( logs/build_images
) 和评估日志 ( logs/run_evaluation
)。
最终的评估结果将存储在evaluation_results
目录中。
要查看评估工具的完整参数列表,请运行:
python -m swebench.harness.run_evaluation --help
此外,SWE-Bench 存储库可以帮助您:
数据集 | 型号 |
---|---|
? SWE-长凳 | ? SWE-骆驼 13b |
? “神谕”检索 | ? SWE-Llama 13b (PEFT) |
? BM25检索13K | ? SWE-骆驼 7b |
? BM25检索27K | ? SWE-Llama 7b (PEFT) |
? BM25检索40K | |
? BM25 检索 50K(Llama 代币) |
我们还撰写了以下有关如何使用 SWE-bench 不同部分的博客文章。如果您想查看有关特定主题的帖子,请通过问题告诉我们。
我们很乐意听到更广泛的 NLP、机器学习和软件工程研究社区的意见,并且我们欢迎任何贡献、拉取请求或问题!为此,请提交新的拉取请求或问题并相应地填写相应的模板。我们一定会尽快跟进!
联系人:Carlos E. Jimenez 和 John Yang(电子邮件:[email protected]、[email protected])。
如果您发现我们的工作有帮助,请使用以下引文。
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
麻省理工学院。检查LICENSE.md
。