| 日本語 |英語 | 中文簡體 | 中文繁體 |
ICLR 2024 論文 SWE-bench 的程式碼與資料:語言模型能否解決現實世界的 GitHub 問題?
請參閱我們的網站以了解公開排行榜和變更日誌,以了解有關 SWE-bench 基準測試最新更新的資訊。
SWE-bench 是用於評估從 GitHub 收集的現實世界軟體問題的大型語言模型的基準。給定程式碼庫和問題,語言模型的任務是產生解決所描述問題的補丁。
要存取 SWE-bench,請複製並執行以下程式碼:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
SWE-bench 使用 Docker 進行可重複的評估。按照 Docker 設定指南中的說明在您的電腦上安裝 Docker。如果您在 Linux 上進行設置,我們建議您也查看安裝後步驟。
最後,要從原始程式碼建立 SWE-bench,請按照以下步驟操作:
git clone [email protected]:princeton-nlp/SWE-bench.git
cd SWE-bench
pip install -e .
透過執行以下命令來測試您的安裝:
python -m swebench.harness.run_evaluation
--predictions_path gold
--max_workers 1
--instance_ids sympy__sympy-20590
--run_id validate-gold
警告
在 SWE-bench 上執行快速評估可能會佔用x86_64
資源。您可能需要嘗試使用--max_workers
參數來找到適合您的電腦的最佳工作執行緒數,但我們建議使用少於min(0.75 * os.cpu_count(), 24)
。
如果使用 docker 桌面運行,請確保增加虛擬磁碟空間以擁有約 120 GB 可用空間,並將 max_workers 設定為與上述 docker 可用 CPU 一致。
對arm64
機器的支援是實驗性的。
使用評估工具透過以下指令評估 SWE-bench Lite 上的模型預測:
python -m swebench.harness.run_evaluation
--dataset_name princeton-nlp/SWE-bench_Lite
--predictions_path < path_to_predictions >
--max_workers < num_workers >
--run_id < run_id >
# use --predictions_path 'gold' to verify the gold patches
# use --run_id to name the evaluation run
此命令將在目前目錄中產生 docker 建置日誌 ( logs/build_images
) 和評估日誌 ( logs/run_evaluation
)。
最終的評估結果將儲存在evaluation_results
目錄中。
若要查看評估工具的完整參數列表,請執行:
python -m swebench.harness.run_evaluation --help
此外,SWE-Bench 儲存庫可以幫助您:
數據集 | 型號 |
---|---|
? SWE-長凳 | ? SWE-駱駝 13b |
? “神諭”檢索 | ? SWE-Llama 13b (PEFT) |
? BM25檢索13K | ? SWE-駱駝 7b |
? BM25檢索27K | ? SWE-Llama 7b (PEFT) |
? BM25檢索40K | |
? BM25 檢索 50K(Llama 代幣) |
我們也撰寫了以下有關如何使用 SWE-bench 不同部分的部落格文章。如果您想查看有關特定主題的帖子,請透過問題告訴我們。
我們很樂意聽到更廣泛的 NLP、機器學習和軟體工程研究社群的意見,並且我們歡迎任何貢獻、拉取請求或問題!為此,請提交新的拉取請求或問題並相應地填寫相應的範本。我們一定會盡快跟進!
聯絡人:Carlos E. Jimenez 和 John Yang(電子郵件:[email protected]、[email protected])。
如果您發現我們的工作有幫助,請使用以下引文。
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
麻省理工學院。檢查LICENSE.md
。