| 日本語 | Englisch | 中文简体 | 中文繁體 |
Code und Daten für unser ICLR 2024-Papier SWE-bench: Können Sprachmodelle reale GitHub-Probleme lösen?
Auf unserer Website finden Sie die öffentliche Bestenliste und das Änderungsprotokoll für Informationen zu den neuesten Aktualisierungen des SWE-Benchmark-Benchmarks.
SWE-Bench ist ein Benchmark zur Bewertung großer Sprachmodelle zu realen Softwareproblemen, der von GitHub gesammelt wurde. Bei einer gegebenen Codebasis und einem Problem wird ein Sprachmodell damit beauftragt, einen Patch zu generieren, der das beschriebene Problem behebt.
Um auf SWE-bench zuzugreifen, kopieren Sie den folgenden Code und führen Sie ihn aus:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
Gehen Sie folgendermaßen vor, um die SWE-Bench aus dem Quellcode zu erstellen:
cd
in das Repository.conda env create -f environment.yml
aus, um eine Conda-Umgebung mit dem Namen swe-bench
zu erstellenconda activate swe-bench
Sie können den SWE-Bench-Datensatz direkt (Entwickler, Testsätze) oder von HuggingFace herunterladen.
Um SWE-Bench zu verwenden, können Sie:
Datensätze | Modelle |
---|---|
? SWE-Bank | ? SWE-Lama 13b |
? „Oracle“-Abruf | ? SWE-Lama 13b (PEFT) |
? BM25-Abruf 13K | ? SWE-Lama 7b |
? BM25-Abruf 27K | ? SWE-Lama 7b (PEFT) |
? BM25-Abruf 40.000 | |
? BM25-Abruf 50.000 (Lama-Token) |
Wir haben auch die folgenden Blog-Beiträge über die Verwendung verschiedener Teile von SWE-bench geschrieben. Wenn Sie einen Beitrag zu einem bestimmten Thema sehen möchten, teilen Sie uns dies bitte über ein Problem mit.
Wir würden gerne von der breiteren NLP-, maschinellen Lern- und Software-Engineering-Forschungsgemeinschaft hören und freuen uns über alle Beiträge, Pull-Requests oder Probleme! Bitte reichen Sie dazu entweder einen neuen Pull-Request oder Issue ein und füllen Sie die entsprechenden Vorlagen entsprechend aus. Wir werden uns in Kürze bei Ihnen melden!
Ansprechpartner: Carlos E. Jimenez und John Yang (E-Mail: {carlosej, jy1682}@princeton.edu).
Wenn Sie unsere Arbeit hilfreich finden, verwenden Sie bitte die folgenden Zitate.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. Überprüfen Sie LICENSE.md
.