| 日本語 | Anglais | 中文简体 | 中文繁體 |
Code et données pour notre article SWE-bench de l'ICLR 2024 : Les modèles linguistiques peuvent-ils résoudre les problèmes GitHub du monde réel ?
Veuillez consulter notre site Web pour le classement public et le journal des modifications pour plus d'informations sur les dernières mises à jour du benchmark SWE-bench.
SWE-bench est une référence pour évaluer de grands modèles de langage sur des problèmes logiciels du monde réel collectés sur GitHub. Étant donné une base de code et un problème , un modèle de langage est chargé de générer un correctif qui résout le problème décrit.
Pour accéder à SWE-bench, copiez et exécutez le code suivant :
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
Pour créer le banc SWE à partir des sources, suivez ces étapes :
cd
dans le référentiel.conda env create -f environment.yml
pour créer un environnement Conda nommé swe-bench
conda activate swe-bench
Vous pouvez télécharger l'ensemble de données du banc SWE directement (développement, ensembles de tests) ou depuis HuggingFace.
Pour utiliser SWE-Bench, vous pouvez :
Ensembles de données | Modèles |
---|---|
? Banc SWE | ? SWE-Lama 13b |
? Récupération "Oracle" | ? SWE-Lama 13b (PEFT) |
? Récupération BM25 13K | ? SWE-Lama 7b |
? Récupération BM25 27K | ? SWE-Lama 7b (PEFT) |
? Récupération BM25 40K | |
? BM25 Récupération 50K (jetons Lama) |
Nous avons également rédigé les articles de blog suivants sur la façon d'utiliser différentes parties de SWE-bench. Si vous souhaitez voir un article sur un sujet particulier, veuillez nous le faire savoir via un problème.
Nous serions ravis d’entendre les communautés de recherche plus larges en PNL, en apprentissage automatique et en génie logiciel, et nous acceptons toute contribution, demande de tirage ou problème ! Pour ce faire, veuillez déposer une nouvelle pull request ou un nouveau problème et remplir les modèles correspondants en conséquence. Nous ne manquerons pas de faire un suivi sous peu !
Personne de contact : Carlos E. Jimenez et John Yang (E-mail : {carlosej, jy1682}@princeton.edu).
Si vous trouvez notre travail utile, veuillez utiliser les citations suivantes.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. Vérifiez LICENSE.md
.