| 일본어 | 영어 | 중국어简体 | 중국어繁체 |
ICLR 2024 논문 SWE-bench의 코드 및 데이터: 언어 모델이 실제 GitHub 문제를 해결할 수 있습니까?
SWE-벤치 벤치마크의 최신 업데이트에 대한 정보는 공개 순위표 및 변경 로그를 보려면 당사 웹사이트를 참조하십시오.
SWE-bench는 GitHub에서 수집한 실제 소프트웨어 문제에 대한 대규모 언어 모델을 평가하기 위한 벤치마크입니다. 코드베이스 와 문제가 주어지면 언어 모델은 설명된 문제를 해결하는 패치를 생성하는 임무를 맡습니다.
SWE-bench에 액세스하려면 다음 코드를 복사하여 실행하세요.
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
소스에서 SWE-bench를 빌드하려면 다음 단계를 따르세요.
cd
저장소에 넣습니다.conda env create -f environment.yml
실행하여 swe-bench
라는 conda 환경을 생성합니다.conda activate swe-bench
사용하여 환경 활성화 SWE-bench 데이터세트를 직접(개발, 테스트 세트) 다운로드하거나 HuggingFace에서 다운로드할 수 있습니다.
SWE-Bench를 사용하려면 다음을 수행할 수 있습니다.
데이터세트 | 모델 |
---|---|
? SWE 벤치 | ? SWE-라마 13b |
? "오라클" 검색 | ? SWE-라마 13b(PEFT) |
? BM25 검색 13K | ? SWE-라마 7b |
? BM25 검색 27K | ? SWE-라마 7b(PEFT) |
? BM25 검색 40K | |
? BM25 검색 50K(라마 토큰) |
또한 SWE-bench의 다양한 부분을 사용하는 방법에 대한 다음 블로그 게시물도 작성했습니다. 특정 주제에 대한 게시물을 보고 싶다면 이슈를 통해 알려주시기 바랍니다.
우리는 더 넓은 NLP, 기계 학습 및 소프트웨어 엔지니어링 연구 커뮤니티의 의견을 듣고 싶습니다. 기여, 끌어오기 요청 또는 문제를 환영합니다! 그렇게 하려면 새로운 끌어오기 요청을 제출하거나 이에 따라 해당 템플릿을 발행하고 작성하십시오. 곧 후속 조치를 취하도록 하겠습니다!
담당자: Carlos E. Jimenez 및 John Yang(이메일: {carlosej, jy1682}@princeton.edu)
우리의 작업이 도움이 되었다고 생각하시면 다음 인용문을 활용해 주십시오.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
MIT. LICENSE.md
확인하세요.