| 日本語 | Inglés | 中文简体 | 中文繁體 |
Código y datos para nuestro artículo ICLR 2024 SWE-bench: ¿Pueden los modelos de lenguaje resolver problemas de GitHub del mundo real?
Consulte nuestro sitio web para ver la tabla de clasificación pública y el registro de cambios para obtener información sobre las últimas actualizaciones del punto de referencia SWE-bench.
SWE-bench es un punto de referencia para evaluar modelos de lenguaje grandes sobre problemas de software del mundo real recopilados de GitHub. Dada una base de código y un problema , un modelo de lenguaje tiene la tarea de generar un parche que resuelva el problema descrito.
Para acceder a SWE-bench, copie y ejecute el siguiente código:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
Para construir SWE-bench desde el código fuente, siga estos pasos:
cd
en el repositorio.conda env create -f environment.yml
para crear un entorno Conda llamado swe-bench
conda activate swe-bench
Puede descargar el conjunto de datos de SWE-bench directamente (desarrollador, conjuntos de prueba) o desde HuggingFace.
Para utilizar SWE-Bench, puede:
Conjuntos de datos | Modelos |
---|---|
? banco SWE | ? SWE-Llama 13b |
? Recuperación del "Oráculo" | ? SWE-Llama 13b (PEFT) |
? Recuperación BM25 13K | ? SWE-Llama 7b |
? Recuperación BM25 27K | ? SWE-Llama 7b (PEFT) |
? Recuperación BM25 40K | |
? BM25 Recuperación 50K (tokens Llama) |
También escribimos las siguientes publicaciones de blog sobre cómo utilizar diferentes partes de SWE-bench. Si desea ver una publicación sobre un tema en particular, háganoslo saber a través de un problema.
Nos encantaría escuchar a las comunidades de investigación más amplias de PNL, aprendizaje automático e ingeniería de software, y agradecemos cualquier contribución, solicitud de extracción o problema. Para hacerlo, presente una nueva solicitud de extracción o problema y complete las plantillas correspondientes en consecuencia. ¡Nos aseguraremos de hacer un seguimiento en breve!
Persona de contacto: Carlos E. Jiménez y John Yang (correo electrónico: {carlosej, jy1682}@princeton.edu).
Si encuentra útil nuestro trabajo, utilice las siguientes citas.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. Consulte LICENSE.md
.