Baru-baru ini, Austrian Institute of Complex Sciences (CSH) mengevaluasi pengetahuan historis dari tiga model bahasa skala besar (LLM) dari GPT-4, Llama dan Gemini, dan hasilnya mengejutkan. Tim peneliti menggunakan alat pengujian benchmark yang disebut "hist-llm". Hasil penelitian telah diumumkan di Neurips Konferensi Kecerdasan Buatan, dan hasilnya telah memicu orang -orang yang mendalam untuk kemampuan LLMS untuk melamar di bidang yang kompleks.
Untuk mengevaluasi kinerja model-model ini dalam pengetahuan historis, para peneliti telah mengembangkan alat pengujian benchmark yang disebut "hist-llm". Alat ini didasarkan pada database historis global, yang bertujuan untuk memverifikasi keakuratan AI menjawab pertanyaan historis. Hasil penelitian diumumkan di Neurips, konferensi kecerdasan buatan yang terkenal, dan data menunjukkan bahwa keakuratan kinerja GPT-4Turbo terbaik hanya 46%. Hasil ini menunjukkan bahwa kinerjanya hanya lebih baik daripada menebak secara acak.
Maria del Rio-Chanona, seorang profesor ilmu komputer di University of London, mengatakan: "Meskipun model bahasa besar itu mengesankan, pemahaman mereka tentang pengetahuan historis tingkat tinggi mereka masih belum cukup. Ketika masalah historis, tampaknya tidak ada tandingannya. Selain itu, ketika para peneliti bertanya apakah Mesir kuno memiliki pasukan residen profesional, GPT-4 juga menjawab "ya", dan jawaban sebenarnya tidak.
Studi ini juga mengungkapkan bahwa model berkinerja buruk ketika berurusan dengan beberapa bidang tertentu (seperti Afrika, Afrika Selatan), yang menunjukkan bahwa data pelatihannya mungkin memiliki beberapa prasangka. Petr Turchin, orang yang bertanggung jawab atas penelitian ini, menunjukkan bahwa hasil ini mencerminkan bahwa LLM masih tidak dapat menggantikan manusia di beberapa daerah.
Poin:
Akurasi -GPT-4Turbo dalam pemeriksaan historis tingkat tinggi hanya 46%, dan kinerjanya tidak baik.
-Penelitian menunjukkan bahwa model bahasa besar masih tidak cukup dalam memahami pengetahuan historis yang kompleks.
-Tim peneliti berharap dapat meningkatkan potensi aplikasi model dalam penelitian historis dengan meningkatkan alat pengujian.
Hasil penelitian ini mengingatkan kita bahwa meskipun model bahasa besar telah membuat kemajuan yang signifikan dalam banyak aspek, masih ada keterbatasan ketika berhadapan dengan masalah kompleks yang membutuhkan pemahaman dan analisis yang sangat teliti. Penelitian di masa depan perlu memperhatikan bagaimana meningkatkan data pelatihan dan algoritma model untuk meningkatkan kemampuan aplikasinya di berbagai bidang dan akhirnya mewujudkan kecerdasan buatan umum yang nyata.