Oleh Ali Borji, Mehrdad Mohammadian
Gerbang Penelitian: tautan
Meskipun evaluasi informal terhadap LLM modern dapat ditemukan di media sosial, blog, dan outlet berita, perbandingan formal dan komprehensif di antara mereka belum dilakukan. Menanggapi kesenjangan ini, kami telah melakukan evaluasi benchmark ekstensif terhadap LLM dan bot percakapan. Evaluasi kami melibatkan pengumpulan 1002 pertanyaan yang mencakup 27 kategori, yang kami sebut sebagai “kumpulan data Wordsmiths.” Kategori-kategori ini mencakup penalaran, logika, fakta, pengkodean, bias, bahasa, humor, dan banyak lagi. Setiap pertanyaan dalam dataset disertai dengan jawaban yang akurat dan terverifikasi. Kami dengan cermat menilai empat chatbot terkemuka: ChatGPT, GPT-4, Bard, dan Claude, menggunakan kumpulan data ini. Hasil evaluasi kami mengungkapkan temuan utama berikut: a) GPT-4 muncul sebagai chatbot dengan kinerja terbaik di semua kategori, dengan tingkat keberhasilan sebesar 84,1%. Di sisi lain, Bard menghadapi tantangan dan mencapai tingkat keberhasilan 62,4%. b) Di antara empat model yang dievaluasi, salah satunya merespons dengan benar sekitar 93% dari total keseluruhan waktu. Namun seluruh model yang benar hanya sekitar 44%. c) Bard kurang berkorelasi dengan model lain, sedangkan ChatGPT dan GPT-4 berkorelasi tinggi dalam hal responsnya. d) Chatbots menunjukkan kemahiran dalam pemahaman bahasa, fakta, dan kesadaran diri. Namun, mereka menemui kesulitan di berbagai bidang seperti matematika, coding, IQ, dan penalaran. e) Dalam hal kategori bias, diskriminasi, dan etika, model secara umum memiliki kinerja yang baik, sehingga menunjukkan bahwa model tersebut relatif aman untuk digunakan. Untuk mempermudah evaluasi model di masa mendatang pada kumpulan data kami, kami juga menyediakan versi pilihan ganda (disebut Wordsmiths-MCQ). Pemahaman dan penilaian terhadap kemampuan dan keterbatasan chatbot modern memiliki implikasi sosial yang sangat besar. Dalam upaya untuk mendorong penelitian lebih lanjut dalam bidang ini, kami telah menyediakan kumpulan data kami untuk akses publik, yang dapat ditemukan di Wordsmiths.
untuk diumumkan
Secara total, kumpulan data kami berisi 1002 pasangan tanya jawab . Terdapat 27 kategori yang dapat digunakan untuk menilai kemampuan utama dan penting model bahasa besar. Gambar di bawah menunjukkan jumlah pertanyaan per kategori.
Untuk mengakses dataset, lihat folder data atau download dataset dari bagian rilis. Format json
dan csv
disediakan untuk semua kategori, Anda dapat menggunakannya berdasarkan kebutuhan Anda. Untuk kategori/pertanyaan yang tidak memerlukan jawaban, maka "NONE" diganti sebagai jawabannya.
Jika Anda tertarik berkontribusi untuk memperluas kumpulan data yang diusulkan, silakan buka terbitan atau cukup kirimkan email. Kami mendorong Anda untuk menambahkan pasangan pertanyaan-jawaban Anda dalam kategori dan bahasa apa pun.
Pracetak SSRN:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
Lisensi Publik Umum GNU v3.0