| 日本語 |英語 | 中文簡體 | 中文繁體 |
ICLR 2024 論文 SWE-bench 的程式碼與資料:語言模型能否解決現實世界的 GitHub 問題?
請參閱我們的網站查看公開排行榜和變更日誌,以了解有關 SWE-bench 基準測試最新更新的資訊。
SWE-bench 是評估從 GitHub 收集的現實世界軟體問題的大型語言模型的基準。給定程式碼庫和問題,語言模型的任務是產生解決所描述問題的補丁。
要存取 SWE-bench,請複製並執行以下程式碼:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
若要從原始程式碼建置 SWE-bench,請依照下列步驟操作:
cd
到存儲庫中。conda env create -f environment.yml
以建立名為swe-bench
conda 環境conda activate swe-bench
啟動環境您可以直接下載 SWE-bench 資料集(開發、測試集)或從 HuggingFace 下載。
要使用 SWE-Bench,您可以:
數據集 | 型號 |
---|---|
? SWE-長凳 | ? SWE-駱駝 13b |
? “神諭”檢索 | ? SWE-Llama 13b (PEFT) |
? BM25檢索13K | ? SWE-駱駝 7b |
? BM25檢索27K | ? SWE-Llama 7b (PEFT) |
? BM25檢索40K | |
? BM25 檢索 50K(Llama 代幣) |
我們也撰寫了以下有關如何使用 SWE-bench 不同部分的部落格文章。如果您想查看有關特定主題的帖子,請透過問題告訴我們。
我們很樂意聽到更廣泛的 NLP、機器學習和軟體工程研究社群的意見,並且我們歡迎任何貢獻、拉取請求或問題!為此,請提交新的拉取請求或問題並相應地填寫相應的範本。我們一定會盡快跟進!
聯絡人:Carlos E. Jimenez 和 John Yang(電子郵件:{carlosej, jy1682}@princeton.edu)。
如果您發現我們的工作有幫助,請使用以下引文。
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
麻省理工學院。檢查LICENSE.md
。