| 日本語 |英語 | 中文简体 | 繁体字中国語 |
ICLR 2024 論文 SWE ベンチのコードとデータ: 言語モデルは現実世界の GitHub の問題を解決できますか?
SWE ベンチ ベンチマークの最新の更新情報については、公開リーダーボードと変更ログについては Web サイトを参照してください。
SWE ベンチは、GitHub から収集された現実世界のソフトウェアの問題に関する大規模な言語モデルを評価するためのベンチマークです。コードベースと問題が与えられると、言語モデルは、記述された問題を解決するパッチを生成するタスクを負います。
SWE ベンチにアクセスするには、次のコードをコピーして実行します。
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
ソースから SWE ベンチを構築するには、次の手順に従います。
cd
ます。conda env create -f environment.yml
を実行して、 swe-bench
という名前の conda 環境を作成します。conda activate swe-bench
で環境をアクティブ化するSWE ベンチ データセットは、直接 (開発、テスト セット)、または HuggingFace からダウンロードできます。
SWE-Bench を使用するには、次のことができます。
データセット | モデル |
---|---|
? SWEベンチ | ? SWE-ラマ 13b |
? 「オラクル」の検索 | ? SWE-ラマ 13b (PEFT) |
? BM25 回収 13K | ? SWE-ラマ 7b |
? BM25 回収 27K | ? SWE-ラマ 7b (PEFT) |
? BM25 リトリーバル 40K | |
? BM25 取得 50K (ラマ トークン) |
SWE-bench のさまざまな部分の使用方法については、次のブログ投稿も作成しました。特定のトピックに関する投稿をご覧になりたい場合は、問題を通じてお知らせください。
NLP、機械学習、ソフトウェア エンジニアリングの幅広い研究コミュニティからの意見をお待ちしています。また、あらゆる貢献、プル リクエスト、問題点を歓迎します。これを行うには、新しいプル リクエストを提出するか、対応するテンプレートに必要事項を入力して発行してください。すぐにフォローアップさせていただきます。
連絡担当者: Carlos E. Jimenez と John Yang (電子メール: {carlosej, jy1682}@princeton.edu)。
私たちの取り組みが役立つと思われる場合は、次の引用を使用してください。
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
マサチューセッツ工科大学。 LICENSE.md
確認してください。