Editor Downcodes mengetahui bahwa peneliti Apple telah meluncurkan tes benchmark baru yang disebut GSM-Symbolic untuk kemampuan penalaran matematis model bahasa besar (LLM). Tes ini didasarkan pada GSM8K dan dirancang untuk mengevaluasi kemampuan penalaran LLM secara lebih komprehensif, daripada hanya mengandalkan pencocokan pola probabilistiknya. Meskipun GSM8K populer, ia memiliki masalah seperti polusi data dan fluktuasi kinerja. GSM-Symbolic mengatasi kekurangan ini dengan menghasilkan beragam masalah matematika dari templat simbolik, memberikan jaminan untuk evaluasi yang lebih akurat.
Baru-baru ini, peneliti Apple melakukan studi mendalam tentang kemampuan penalaran matematis model bahasa besar (LLM) dan meluncurkan benchmark baru yang disebut GSM-Symbolic.
Tolok ukur baru ini dikembangkan berdasarkan GSM8K, yang terutama digunakan untuk mengevaluasi kemampuan dasar matematika. Meskipun kinerja banyak LLM telah meningkat pada GSM8K, komunitas ilmiah masih memiliki pertanyaan tentang kemampuan penalaran model ini, karena percaya bahwa metrik evaluasi yang ada mungkin tidak sepenuhnya mencerminkan kemampuan sebenarnya. Penelitian telah menemukan bahwa LLM sering kali mengandalkan pencocokan pola probabilistik daripada penalaran logis yang sebenarnya, menjadikannya sangat sensitif terhadap perubahan kecil dalam masukan.
Dalam studi baru ini, para peneliti menggunakan templat simbolik untuk menghasilkan beragam masalah matematika yang memberikan penilaian lebih andal. Hasil eksperimen menunjukkan bahwa kinerja LLM menurun secara signifikan ketika nilai numerik atau kompleksitas masalah meningkat. Lebih jauh lagi, bahkan menambahkan informasi yang tampak relevan dengan masalah namun sebenarnya tidak relevan dapat menyebabkan penurunan performa model hingga 65%. Hasil ini sekali lagi menegaskan bahwa LLM lebih mengandalkan pencocokan pola daripada penalaran logis formal ketika bernalar.
Kumpulan data GSM8K berisi lebih dari 8.000 soal matematika tingkat kelas, dan popularitasnya menimbulkan beberapa risiko, seperti kontaminasi data dan fluktuasi kinerja yang disebabkan oleh perubahan kecil soal. Untuk menghadapi tantangan tersebut, kemunculan GSM-Symbolic memungkinkan keragaman permasalahan dapat dikendalikan secara efektif. Tolok ukur ini mengevaluasi lebih dari 20 model terbuka dan tertutup menggunakan 5.000 sampel dari 100 templat, menunjukkan wawasan dan keterbatasan kemampuan penalaran matematis LLM.
Eksperimen awal menunjukkan bahwa performa berbagai model pada GSM-Symbolic sangat bervariasi, dan akurasi keseluruhan lebih rendah dibandingkan performa yang dilaporkan pada GSM8K. Penelitian tersebut mengeksplorasi lebih lanjut dampak perubahan nama variabel dan nilai pada LLM, dan hasilnya menunjukkan bahwa perubahan nilai berdampak lebih besar terhadap kinerja. Selain itu, kompleksitas masalah juga secara langsung mempengaruhi keakuratan, dan masalah yang kompleks menyebabkan penurunan kinerja yang signifikan. Hasil ini menunjukkan bahwa model tersebut mungkin lebih mengandalkan pencocokan pola daripada kemampuan penalaran yang sebenarnya ketika menghadapi masalah matematika.
Studi ini menyoroti keterbatasan evaluasi GSM8K saat ini dan memperkenalkan tolok ukur baru, GSM-Symbolic, yang dirancang untuk mengevaluasi kemampuan penalaran matematis LLM. Secara keseluruhan, temuan menunjukkan bahwa LLM masih perlu lebih meningkatkan kemampuan penalaran logisnya ketika menghadapi masalah yang kompleks.
Makalah: https://arxiv.org/abs/2410.05229
Secara keseluruhan, benchmark GSM-Symbolic yang diusulkan oleh Apple memberikan perspektif baru untuk mengevaluasi kemampuan penalaran matematis model bahasa besar. Hal ini juga mengungkapkan bahwa LLM masih memiliki ruang untuk perbaikan dalam penalaran logis, yang menunjukkan jalan untuk perbaikan model di masa depan. Kami menantikan lebih banyak penelitian di masa depan untuk lebih mendorong pengembangan kemampuan penalaran LLM.