| 日本語 | английский | 中文简体 | 中文繁體 |
Код и данные для нашего документа ICLR 2024 SWE-bench: могут ли языковые модели решать реальные проблемы GitHub?
Пожалуйста, посетите наш веб-сайт для просмотра общедоступной таблицы лидеров и журнала изменений для получения информации о последних обновлениях теста SWE-bench.
SWE-bench — это эталон для оценки больших языковых моделей реальных проблем с программным обеспечением, собранный с GitHub. Учитывая кодовую базу и проблему , языковой модели поручено создать патч , решающий описанную проблему.
Чтобы получить доступ к SWE-bench, скопируйте и запустите следующий код:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
Чтобы собрать SWE-bench из исходного кода, выполните следующие действия:
cd
в репозиторий.conda env create -f environment.yml
, чтобы создать среду conda с именем swe-bench
conda activate swe-bench
Вы можете загрузить набор данных SWE-bench напрямую (наборы для разработки, тесты) или с HuggingFace.
Чтобы использовать SWE-Bench, вы можете:
Наборы данных | Модели |
---|---|
? SWE-скамья | ? SWE-Лама 13б |
? Поиск «Оракула» | ? ШВЕ-Лама 13б (ПЕФТ) |
? БМ25 Поиск 13К | ? SWE-Лама 7б |
? БМ25 Поиск 27К | ? ШВЕ-Лама 7б (ПЕФТ) |
? БМ25 Поиск 40К | |
? BM25 Получение 50 тыс. (жетоны ламы) |
Мы также написали следующие статьи в блоге о том, как использовать различные части SWE-bench. Если вы хотите увидеть публикацию на определенную тему, сообщите нам об этом через вопрос.
Мы хотели бы услышать мнение более широких исследовательских сообществ НЛП, машинного обучения и разработки программного обеспечения, и мы приветствуем любые вклады, запросы на включение или проблемы! Для этого отправьте новый запрос на включение или проблему и соответствующим образом заполните соответствующие шаблоны. Мы обязательно последуем в ближайшее время!
Контактное лицо: Карлос Э. Хименес и Джон Янг (электронная почта: {carlosej, jy1682}@princeton.edu).
Если наша работа окажется для вас полезной, пожалуйста, используйте следующие цитаты.
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
Массачусетский технологический институт. Проверьте LICENSE.md
.