- ภาษาญี่ปุ่น | อังกฤษ | 中文简体 | 中文繁體 |
รหัสและข้อมูลสำหรับรายงาน ICLR 2024 ของเรา SWE-bench: โมเดลภาษาสามารถแก้ไขปัญหา GitHub ในโลกแห่งความเป็นจริงได้หรือไม่
โปรดดูเว็บไซต์ของเราสำหรับกระดานผู้นำสาธารณะและบันทึกการเปลี่ยนแปลงสำหรับข้อมูลเกี่ยวกับการอัปเดตล่าสุดในเกณฑ์มาตรฐาน SWE-bench
SWE-bench เป็นเกณฑ์มาตรฐานสำหรับการประเมินโมเดลภาษาขนาดใหญ่เกี่ยวกับปัญหาซอฟต์แวร์ในโลกแห่งความเป็นจริงที่รวบรวมจาก GitHub ด้วย โค้ดเบส และ ปัญหา โมเดลภาษาได้รับมอบหมายให้สร้าง แพตช์ ที่แก้ไขปัญหาที่อธิบายไว้
หากต้องการเข้าถึง SWE-bench ให้คัดลอกและเรียกใช้โค้ดต่อไปนี้:
from datasets import load_dataset
swebench = load_dataset ( 'princeton-nlp/SWE-bench' , split = 'test' )
หากต้องการสร้าง SWE-bench จากแหล่งที่มา ให้ทำตามขั้นตอนเหล่านี้:
cd
ลงในที่เก็บconda env create -f environment.yml
เพื่อสร้างสภาพแวดล้อม conda ชื่อ swe-bench
conda activate swe-bench
คุณสามารถดาวน์โหลดชุดข้อมูล SWE-bench ได้โดยตรง (dev, ชุดทดสอบ) หรือจาก HuggingFace
หากต้องการใช้ SWE-Bench คุณสามารถ:
ชุดข้อมูล | โมเดล |
---|---|
- SWE-ม้านั่ง | - SWE-ลามะ 13b |
- การสืบค้น "ออราเคิล" | - SWE-ลามะ 13b (PEFT) |
- BM25 รีไรท์ 13K | - SWE-ลามะ 7b |
- BM25 ดึงคืน 27K | - SWE-ลามะ 7b (PEFT) |
- BM25 ดึงคืน 40K | |
- BM25 การเรียกค้น 50K (โทเค็นลามะ) |
นอกจากนี้เรายังได้เขียนบล็อกโพสต์ต่อไปนี้เกี่ยวกับวิธีใช้ส่วนต่างๆ ของ SWE-bench หากคุณต้องการดูโพสต์เกี่ยวกับหัวข้อใดหัวข้อหนึ่ง โปรดแจ้งให้เราทราบผ่านทางปัญหา
เรายินดีรับฟังความคิดเห็นจากชุมชนการวิจัย NLP, Machine Learning และ Software Engineering ในวงกว้าง และเรายินดีรับความช่วยเหลือ ดึงคำขอ หรือปัญหาใดๆ ในการดำเนินการดังกล่าว โปรดยื่นคำขอดึงข้อมูลหรือฉบับใหม่ และกรอกเทมเพลตที่เกี่ยวข้องตามลำดับ เราจะติดตามผลเร็วๆ นี้อย่างแน่นอน!
ผู้ติดต่อ: Carlos E. Jimenez และ John Yang (อีเมล: {carlosej, jy1682}@princeton.edu)
หากคุณพบว่างานของเรามีประโยชน์ โปรดใช้ข้อมูลอ้างอิงต่อไปนี้
@inproceedings{
jimenez2024swebench,
title={{SWE}-bench: Can Language Models Resolve Real-world Github Issues?},
author={Carlos E Jimenez and John Yang and Alexander Wettig and Shunyu Yao and Kexin Pei and Ofir Press and Karthik R Narasimhan},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=VTF8yNQM66}
}
เอ็มไอที. ตรวจสอบ LICENSE.md