| 日本語 | Bahasa Inggris | 中文简体 | 中文繁體 |
Kode dan data untuk makalah SWE-bench ICLR 2024 kami: Bisakah Model Bahasa Menyelesaikan Masalah GitHub di Dunia Nyata?
Silakan lihat situs web kami untuk papan peringkat publik dan log perubahan untuk informasi tentang pembaruan terkini pada benchmark SWE-bench.
SWE-bench adalah tolok ukur untuk mengevaluasi model bahasa besar pada masalah perangkat lunak dunia nyata yang dikumpulkan dari GitHub. Mengingat basis kode dan masalah , model bahasa ditugaskan untuk membuat patch yang menyelesaikan masalah yang dijelaskan.
Untuk mengakses SWE-bench, salin dan jalankan kode berikut:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
Untuk membuat bangku SWE dari sumber, ikuti langkah-langkah berikut:
cd
ke dalam repositori.conda env create -f environment.yml
untuk membuat lingkungan conda bernama swe-bench
conda activate swe-bench
Anda dapat mengunduh kumpulan data SWE-bench secara langsung (dev, set pengujian) atau dari HuggingFace.
Untuk menggunakan SWE-Bench, Anda dapat:
Kumpulan data | Model |
---|---|
? bangku SWE | ? SWE-Llama 13b |
? Pengambilan "Oracle". | ? SWE-Llama 13b (PEFT) |
? Pengambilan BM25 13K | ? SWE-Llama 7b |
? Pengambilan BM25 27K | ? SWE-Llama 7b (PEFT) |
? Pengambilan BM25 40K | |
? Pengambilan BM25 50K (token Llama) |
Kami juga telah menulis postingan blog berikut tentang cara menggunakan berbagai bagian SWE-bench. Jika Anda ingin melihat postingan tentang topik tertentu, harap beri tahu kami melalui masalah.
Kami ingin sekali mendengar masukan dari komunitas riset NLP, Pembelajaran Mesin, dan Rekayasa Perangkat Lunak yang lebih luas, dan kami menyambut baik kontribusi, permintaan penarikan, atau masalah apa pun! Untuk melakukannya, silakan ajukan permintaan penarikan atau penerbitan baru dan isi templat yang sesuai. Kami pasti akan segera menindaklanjutinya!
Kontak person: Carlos E. Jimenez dan John Yang (Email: {carlosej, jy1682}@princeton.edu).
Jika Anda merasa pekerjaan kami bermanfaat, silakan gunakan kutipan berikut.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. Periksa LICENSE.md
.