Editor Downcodes mengetahui bahwa OpenAI merilis benchmark evaluasi pembuatan kode Terverifikasi SWE-bench pada 13 Agustus, yang bertujuan untuk mengevaluasi kinerja model AI di bidang rekayasa perangkat lunak secara lebih akurat. Langkah ini bertujuan untuk memperbaiki kekurangan benchmark SWE-bench asli, meningkatkan keandalan dan akurasi evaluasi, dan menyediakan alat evaluasi yang lebih efektif untuk penerapan model AI dalam pengembangan perangkat lunak. Benchmark baru ini memperkenalkan lingkungan Docker dalam container, yang memecahkan masalah dalam benchmark asli seperti pengujian unit yang terlalu ketat, deskripsi masalah yang tidak jelas, dan kesulitan dalam menyiapkan lingkungan pengembangan.
OpenAI mengumumkan peluncuran benchmark evaluasi pembuatan kode Terverifikasi SWE-bench pada 13 Agustus, yang bertujuan untuk mengevaluasi kinerja model kecerdasan buatan dalam tugas rekayasa perangkat lunak dengan lebih akurat. Tolok ukur baru ini memecahkan banyak keterbatasan dari bangku SWE sebelumnya.
SWE-bench adalah kumpulan data evaluasi berdasarkan masalah perangkat lunak nyata di GitHub, berisi 2294 pasangan Permintaan Tarik-Masalah dari 12 repositori Python populer. Namun, bangku SWE asli memiliki tiga masalah utama: pengujian unit terlalu ketat dan mungkin menolak solusi yang tepat; deskripsi masalah tidak cukup jelas dan lingkungan pengembangan sulit untuk disiapkan dengan andal.
Untuk mengatasi masalah ini, SWE-bench Verified memperkenalkan perangkat penilaian baru untuk lingkungan Docker yang terkontainerisasi, menjadikan proses penilaian lebih konsisten dan andal. Peningkatan ini secara signifikan meningkatkan skor performa model AI. Misalnya, GPT-4o menyelesaikan 33,2% sampel berdasarkan tolok ukur baru, sementara skor Agentless, kerangka kerja agen sumber terbuka dengan kinerja terbaik, juga meningkat dua kali lipat menjadi 16%.
Peningkatan kinerja ini menunjukkan bahwa SWE-bench Verified dapat lebih menangkap kemampuan sebenarnya model AI dalam tugas rekayasa perangkat lunak. Dengan mengatasi keterbatasan tolok ukur awal, OpenAI menyediakan alat evaluasi yang lebih akurat untuk penerapan AI di bidang pengembangan perangkat lunak, yang diharapkan dapat mendorong pengembangan lebih lanjut dan penerapan teknologi terkait.
Seiring dengan semakin banyaknya penggunaan teknologi AI dalam rekayasa perangkat lunak, tolok ukur evaluasi seperti SWE-bench Verified akan memainkan peran penting dalam mengukur dan mendorong peningkatan kemampuan model AI.
Alamat: https://openai.com/index/introducing-swe-bench-verified/
Peluncuran SWE-bench Verified menandai kemajuan evaluasi model AI ke tahap yang lebih akurat dan andal, serta akan membantu mendorong inovasi dan pengembangan AI di bidang rekayasa perangkat lunak. Editor Downcodes percaya bahwa lebih banyak tolok ukur evaluasi serupa akan muncul di masa depan untuk lebih mendorong kemajuan teknologi AI.