Editor Downcodes mengetahui bahwa Apple baru-baru ini merilis studi tentang kemampuan penalaran matematis model bahasa besar (LLM), yang telah menarik perhatian luas di industri. Studi ini mempertanyakan kinerja LLM yang ada pada benchmark GSM8K dan memperkenalkan benchmark GSM-Symbolic yang ditingkatkan untuk mengevaluasi kemampuan penalaran LLM dengan lebih andal. Penelitian ini sangat penting untuk memahami keterbatasan LLM dalam bidang matematika, dan juga memberikan wawasan berharga mengenai arah peningkatan LLM di masa depan.
Baru-baru ini, Apple melakukan studi tentang kemampuan penalaran model bahasa besar (LLM), yang menimbulkan kekhawatiran tentang performa model tersebut di bidang matematika.
Diketahui benchmark GSM8K banyak digunakan untuk mengevaluasi kemampuan penalaran model pada permasalahan matematika sekolah dasar. Meskipun kinerja LLM pada GSM8K telah meningkat dalam beberapa tahun terakhir, para peneliti mempertanyakan keandalan hasil ini. Oleh karena itu, mereka melakukan studi skala besar untuk mengeksplorasi kinerja model sumber terbuka dan sumber tertutup yang canggih saat ini.
Untuk mengevaluasi kemampuan penalaran model dengan lebih baik, tim peneliti memperkenalkan tes benchmark yang ditingkatkan – GSM-Symbolic. Tolok ukur baru ini menggunakan templat simbolik untuk menghasilkan beragam pertanyaan, memungkinkan kontrol yang lebih baik terhadap proses evaluasi dan menyediakan metrik yang lebih andal.
Studi tersebut menemukan bahwa kinerja LLM berfluktuasi secara signifikan ketika nilai numerik dalam soal diubah. Menariknya lagi, performa model menurun secara signifikan seiring bertambahnya jumlah istilah dalam pertanyaan. Para peneliti berspekulasi bahwa penurunan kinerja ini menunjukkan bahwa LLM yang ada tidak memiliki kemampuan penalaran logis yang sebenarnya, namun hanya meniru langkah-langkah penalaran dalam data pelatihan.
Dalam eksperimen, performa semua model canggih turun sebanyak 65% ketika hanya menambahkan satu istilah yang tampaknya relevan. Meskipun istilah-istilah ini tidak ada hubungannya dengan rantai penalaran yang mengarah pada jawaban akhir, istilah-istilah ini tetap berdampak besar pada performa model. Secara keseluruhan, penelitian ini memberi kita pemahaman yang lebih mendalam tentang kemampuan dan keterbatasan LLM dalam penalaran matematika.
Menyorot:
Kemampuan penalaran matematis LLM menunjukkan perbedaan nyata dalam berbagai contoh masalah.
?Seiring dengan meningkatnya kompleksitas masalah, kinerja LLM menurun secara signifikan, terutama setelah penambahan persyaratan tambahan.
LLM yang ada tidak memiliki kemampuan penalaran logis yang nyata, dan mereka terutama mengandalkan pengulangan dan peniruan data pelatihan.
Penelitian Apple ini mengungkap kekurangan model bahasa besar dalam penalaran matematika dan memberikan arahan penting untuk perbaikan model di masa depan. Penelitian selanjutnya diharapkan dapat meningkatkan kemampuan penalaran logis LLM dan mendekatkannya pada tingkat kognitif manusia. Redaksi Downcodes akan terus memperhatikan perkembangan terkini di bidang ini.