บรรณาธิการของ Downcodes ได้เรียนรู้ว่า OpenAI เปิดตัวเกณฑ์มาตรฐานการประเมินการสร้างโค้ดที่ตรวจสอบโดย SWE-bench เมื่อวันที่ 13 สิงหาคม โดยมีเป้าหมายเพื่อประเมินประสิทธิภาพของโมเดล AI ในด้านวิศวกรรมซอฟต์แวร์ได้แม่นยำยิ่งขึ้น ความเคลื่อนไหวนี้มีจุดมุ่งหมายเพื่อปรับปรุงข้อบกพร่องของเกณฑ์มาตรฐาน SWE-bench เดิม ปรับปรุงความน่าเชื่อถือและความแม่นยำของการประเมิน และมอบเครื่องมือประเมินที่มีประสิทธิภาพมากขึ้นสำหรับการประยุกต์ใช้โมเดล AI ในการพัฒนาซอฟต์แวร์ เกณฑ์มาตรฐานใหม่แนะนำสภาพแวดล้อม Docker แบบคอนเทนเนอร์ ซึ่งแก้ปัญหาในเกณฑ์มาตรฐานเดิม เช่น การทดสอบหน่วยที่เข้มงวดเกินไป คำอธิบายปัญหาที่ไม่ชัดเจน และความยากลำบากในการตั้งค่าสภาพแวดล้อมการพัฒนา
OpenAI ประกาศเปิดตัวเกณฑ์มาตรฐานการประเมินการสร้างโค้ดที่ได้รับการรับรอง SWE-bench เมื่อวันที่ 13 สิงหาคม โดยมีเป้าหมายเพื่อประเมินประสิทธิภาพของโมเดลปัญญาประดิษฐ์ในงานวิศวกรรมซอฟต์แวร์ได้แม่นยำยิ่งขึ้น เกณฑ์มาตรฐานใหม่นี้ช่วยแก้ไขข้อจำกัดหลายประการของเกณฑ์มาตรฐาน SWE ก่อนหน้านี้
SWE-bench เป็นชุดข้อมูลการประเมินที่อิงตามปัญหาซอฟต์แวร์จริงบน GitHub ซึ่งประกอบด้วยคู่คำขอ Issue-Pull 2294 คู่จากที่เก็บ Python ยอดนิยม 12 แห่ง อย่างไรก็ตาม SWE-bench ดั้งเดิมมีปัญหาหลักสามประการ: การทดสอบหน่วยนั้นเข้มงวดเกินไปและอาจปฏิเสธวิธีแก้ปัญหาที่ถูกต้อง คำอธิบายปัญหาไม่ชัดเจนเพียงพอ และสภาพแวดล้อมการพัฒนานั้นยากต่อการตั้งค่าอย่างน่าเชื่อถือ
เพื่อแก้ไขปัญหาเหล่านี้ SWE-bench Verified ขอแนะนำชุดเครื่องมือการประเมินใหม่สำหรับสภาพแวดล้อม Docker ที่มีคอนเทนเนอร์ ทำให้กระบวนการประเมินมีความสอดคล้องและเชื่อถือได้มากขึ้น การปรับปรุงนี้ช่วยปรับปรุงคะแนนประสิทธิภาพของโมเดล AI อย่างมีนัยสำคัญ ตัวอย่างเช่น GPT-4o สามารถแก้ปัญหาตัวอย่างได้ 33.2% ภายใต้เกณฑ์มาตรฐานใหม่ ในขณะที่คะแนนของ Agentless ซึ่งเป็นเฟรมเวิร์กเอเจนต์โอเพ่นซอร์สที่มีประสิทธิภาพดีที่สุดก็เพิ่มขึ้นสองเท่าเป็น 16% เช่นกัน
การปรับปรุงประสิทธิภาพนี้แสดงให้เห็นว่า SWE-bench Verified สามารถบันทึกความสามารถที่แท้จริงของโมเดล AI ในงานวิศวกรรมซอฟต์แวร์ได้ดีขึ้น ด้วยการแก้ไขข้อจำกัดของเกณฑ์มาตรฐานเดิม OpenAI จึงมอบเครื่องมือประเมินที่แม่นยำยิ่งขึ้นสำหรับการประยุกต์ใช้ AI ในด้านการพัฒนาซอฟต์แวร์ ซึ่งคาดว่าจะส่งเสริมการพัฒนาและการประยุกต์ใช้เทคโนโลยีที่เกี่ยวข้องต่อไป
เนื่องจากเทคโนโลยี AI ถูกนำมาใช้มากขึ้นในวิศวกรรมซอฟต์แวร์ เกณฑ์มาตรฐานการประเมิน เช่น SWE-bench Verified จะมีบทบาทสำคัญในการวัดและส่งเสริมการปรับปรุงความสามารถของโมเดล AI
ที่อยู่: https://openai.com/index/introcing-swe-bench-verified/
การเปิดตัว SWE-bench Verified ถือเป็นความก้าวหน้าของการประเมินโมเดล AI ให้มีความแม่นยำและเชื่อถือได้มากขึ้น และจะช่วยส่งเสริมนวัตกรรมและการพัฒนา AI ในด้านวิศวกรรมซอฟต์แวร์ บรรณาธิการของ Downcodes เชื่อว่าจะมีเกณฑ์การประเมินที่คล้ายกันมากขึ้นในอนาคต เพื่อส่งเสริมความก้าวหน้าของเทคโนโลยี AI