Kecerdasan buatan telah menunjukkan kemampuan yang kuat di berbagai bidang, tetapi keterbatasannya dalam menangani masalah historis yang kompleks juga semakin menonjol. Studi terbaru menunjukkan bahwa bahkan model bahasa besar yang paling canggih memiliki kekurangan yang jelas ketika berhadapan dengan detail historis yang cermat. Penelitian ini telah mengedepankan tantangan baru untuk keandalan dan ruang lingkup aplikasi dari model AI yang ada, dan juga memberikan referensi yang berharga untuk arah peningkatan model AI di masa depan.
Penelitian terbaru menunjukkan bahwa meskipun kecerdasan buatan telah berkinerja baik di bidang pemrograman dan pembuatan konten, itu masih tidak cukup dalam menangani masalah historis yang kompleks. Sebuah studi yang baru -baru ini diumumkan di Konferensi Neurips menunjukkan bahwa bahkan model bahasa skala besar (LLM) yang paling canggih sulit untuk mencapai hasil yang memuaskan dalam tes pengetahuan historis.
Tim peneliti mengembangkan tolok ukur uji yang disebut hist-llm untuk mengevaluasi tiga model bahasa top GPT-4 Openai, Meta's Llama dan Google Gemini. Pengujian didasarkan pada database Seshat Global Historical.
Maria Delrio Chaonner, seorang profesor di University of London, menjelaskan: "Model-model ini berkinerja baik dalam fakta-fakta sejarah dasar, tetapi ketika mereka terlibat dalam penelitian historis mendalam yang melibatkan tingkat doktoral menentukan apakah Mesir kuno memiliki teknologi militer tertentu atau pasukan berdiri tertentu yang berdiri berdiri tertentu atau berdiri berdiri spesifik Dalam beberapa periode Mesir kuno.
Para peneliti percaya bahwa kurangnya kinerja ini berasal dari model AI untuk menyimpulkan dari narasi sejarah arus utama, dan sulit untuk secara akurat memahami detail historis yang lebih halus. Selain itu, penelitian juga menemukan bahwa model -model ini berkinerja lebih buruk ketika berhadapan dengan masalah historis di Afrika Selatan dan daerah lain, mengungkap masalah bias yang mungkin ada dalam data pelatihan.
Peter Turchin, orang yang bertanggung jawab atas Pusat Penelitian Pusat Sains Kompleks (CSH), mengatakan bahwa penemuan tersebut menunjukkan bahwa dalam bidang profesional tertentu, AI tidak dapat menggantikan pakar manusia. Namun, tim peneliti masih optimis tentang prospek aplikasi AI dalam penelitian historis.
Hasil penelitian ini mengingatkan kita bahwa meskipun teknologi kecerdasan buatan telah berkembang pesat, pengetahuan dan penilaian para ahli manusia di bidang tertentu masih tidak tergantikan. Di masa depan, kita perlu lebih meningkatkan model AI sehingga dapat menangani informasi historis yang kompleks dengan lebih baik dan menyediakan alat tambahan yang lebih efektif untuk penelitian historis.