| 日本語 | Inglês | 中文简体 | 中文繁體 |
Código e dados para nosso artigo SWE-bench do ICLR 2024: Os modelos de linguagem podem resolver problemas do GitHub do mundo real?
Consulte nosso site para obter a tabela de classificação pública e o registro de alterações para obter informações sobre as atualizações mais recentes do benchmark SWE-bench.
SWE-bench é uma referência para avaliar grandes modelos de linguagem em problemas de software do mundo real coletados do GitHub. Dada uma base de código e um problema , um modelo de linguagem tem a tarefa de gerar um patch que resolva o problema descrito.
Para acessar o SWE-bench, copie e execute o seguinte código:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
Para construir o SWE-bench a partir do código-fonte, siga estas etapas:
cd
no repositório.conda env create -f environment.yml
para criar um ambiente conda chamado swe-bench
conda activate swe-bench
Você pode baixar o conjunto de dados do SWE-bench diretamente (dev, conjuntos de testes) ou do HuggingFace.
Para usar o SWE-Bench, você pode:
Conjuntos de dados | Modelos |
---|---|
? Banco SWE | ? SWE-Lhama 13b |
? Recuperação "Oráculo" | ? SWE-Llama 13b (PEFT) |
? Recuperação BM25 13K | ? SWE-Lhama 7b |
? Recuperação BM25 27K | ? SWE-Llama 7b (PEFT) |
? Recuperação BM25 40K | |
? Recuperação BM25 50K (tokens de lhama) |
Também escrevemos as seguintes postagens no blog sobre como usar diferentes partes do SWE-bench. Se você gostaria de ver uma postagem sobre um tópico específico, informe-nos por meio de um problema.
Adoraríamos ouvir as comunidades mais amplas de pesquisa em PNL, aprendizado de máquina e engenharia de software e agradecemos quaisquer contribuições, solicitações de pull ou problemas! Para fazer isso, registre uma nova solicitação pull ou problema e preencha os modelos correspondentes de acordo. Teremos acompanhamento em breve!
Pessoa de contato: Carlos E. Jimenez e John Yang (E-mail: {carlosej, jy1682}@princeton.edu).
Se você achar nosso trabalho útil, use as seguintes citações.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. Verifique LICENSE.md
.