Editor Downcodes akan membawa Anda memahami hasil penelitian terbaru OpenAI: tes benchmark MLE-bench! Penelitian ini bertujuan untuk mengevaluasi kemampuan aktual agen AI di bidang teknik pembelajaran mesin. Tim peneliti memilih 75 kompetisi pembelajaran mesin Kaggle sebagai skenario pengujian, yang mencakup banyak aspek seperti pelatihan model, persiapan data, dan menjalankan eksperimen, dan menggunakan data peringkat publik Kaggle sebagai tolok ukur manusia untuk perbandingan. Dengan menguji berbagai model bahasa mutakhir, tim peneliti memperoleh pengalaman berharga dan membuat kode benchmark menjadi sumber terbuka untuk memfasilitasi penelitian selanjutnya.
Dalam studi baru-baru ini, tim peneliti OpenAI meluncurkan tolok ukur baru yang disebut MLE-bench, yang dirancang untuk mengevaluasi kinerja agen AI dalam rekayasa pembelajaran mesin.
Studi ini secara khusus berfokus pada 75 kompetisi terkait teknik pembelajaran mesin dari Kaggle, yang dirancang untuk menguji berbagai keterampilan yang dibutuhkan oleh agen di dunia nyata, termasuk pelatihan model, persiapan kumpulan data, dan menjalankan eksperimen.
Untuk evaluasi yang lebih baik, tim peneliti menggunakan data dasar dari peringkat publik Kaggle untuk menetapkan tolok ukur manusia untuk setiap kompetisi. Dalam percobaannya, mereka menggunakan arsitektur agen sumber terbuka untuk menguji beberapa model bahasa mutakhir. Hasilnya menunjukkan bahwa konfigurasi berkinerja terbaik - pratinjau o1 OpenAI yang dikombinasikan dengan arsitektur AIDE - mencapai tingkat medali perunggu Kaggle di 16,9% kompetisi.
Tidak hanya itu, tim peneliti juga melakukan diskusi mendalam mengenai bentuk perluasan sumber daya agen AI dan mempelajari dampak kontaminasi pra-pelatihan terhadap hasilnya. Mereka menekankan bahwa hasil penelitian ini memberikan dasar untuk pemahaman lebih lanjut tentang kemampuan agen AI dalam rekayasa pembelajaran mesin di masa depan. Untuk memudahkan penelitian di masa depan, tim juga telah membuat kode benchmark menjadi open source untuk digunakan oleh peneliti lain.
Peluncuran penelitian ini menandai kemajuan penting dalam bidang pembelajaran mesin, khususnya dalam cara mengevaluasi dan meningkatkan kemampuan teknik agen AI. Para ilmuwan berharap MLE-bench dapat memberikan standar evaluasi yang lebih ilmiah dan dasar praktis untuk pengembangan teknologi AI.
Pintu masuk proyek: https://openai.com/index/mle-bench/
Menyorot:
MLE-bench adalah tolok ukur baru yang dirancang untuk mengevaluasi kemampuan rekayasa pembelajaran mesin agen AI.
Penelitian ini mencakup 75 kompetisi Kaggle, menguji pelatihan model agen dan kemampuan pemrosesan data.
? Kombinasi o1-preview dan arsitektur AIDE OpenAI mencapai level perunggu Kaggle di 16,9% kompetisi.
Benchmark MLE-bench sumber terbuka memberikan standar baru untuk evaluasi agen AI di bidang teknik pembelajaran mesin, dan juga berkontribusi pada pengembangan teknologi AI. Editor Downcodes menantikan lebih banyak hasil penelitian berdasarkan MLE-bench di masa depan!