ปัญญาประดิษฐ์ได้แสดงให้เห็นถึงความสามารถที่แข็งแกร่งในสาขาต่าง ๆ แต่ข้อ จำกัด ในการจัดการกับปัญหาทางประวัติศาสตร์ที่ซับซ้อนก็มีความโดดเด่นมากขึ้นเช่นกัน การศึกษาล่าสุดแสดงให้เห็นว่าแม้แต่แบบจำลองภาษาขนาดใหญ่ที่ทันสมัยที่สุดก็มีข้อบกพร่องที่ชัดเจนเมื่อต้องรับมือกับรายละเอียดทางประวัติศาสตร์ที่พิถีพิถัน การวิจัยนี้ได้นำเสนอความท้าทายใหม่ ๆ สำหรับขอบเขตความน่าเชื่อถือและการใช้งานของโมเดล AI ที่มีอยู่และยังให้การอ้างอิงที่มีค่าสำหรับทิศทางการปรับปรุงของโมเดล AI ในอนาคต
การวิจัยล่าสุดแสดงให้เห็นว่าแม้ว่าปัญญาประดิษฐ์ได้ทำงานได้ดีในสาขาการเขียนโปรแกรมและการสร้างเนื้อหา แต่ก็ยังไม่เพียงพอในการจัดการกับปัญหาทางประวัติศาสตร์ที่ซับซ้อน การศึกษาที่ประกาศเมื่อเร็ว ๆ นี้ในการประชุม Neurips แสดงให้เห็นว่าแม้แต่รูปแบบภาษาขนาดใหญ่ที่ทันสมัยที่สุด (LLM) ก็ยากที่จะบรรลุผลลัพธ์ที่น่าพอใจในการทดสอบความรู้ทางประวัติศาสตร์
ทีมวิจัยได้พัฒนาเกณฑ์มาตรฐานการทดสอบที่เรียกว่า HIST-LLM เพื่อประเมินรูปแบบภาษาชั้นนำสามแบบของ GPT-4 ของ OpenAI, Llama ของ Meta และ Gemini ของ Google การทดสอบขึ้นอยู่กับฐานข้อมูลประวัติศาสตร์ Seshat Global
Maria Delrio Chaonner รองศาสตราจารย์แห่งมหาวิทยาลัยลอนดอนอธิบายว่า: "แบบจำลองเหล่านี้ทำงานได้ดีในข้อเท็จจริงทางประวัติศาสตร์ขั้นพื้นฐาน แต่เมื่อพวกเขาเกี่ยวข้องกับการวิจัยทางประวัติศาสตร์เชิงลึกที่เกี่ยวข้องกับระดับปริญญาเอกจะพิจารณาว่าอียิปต์โบราณมีเทคโนโลยีทางทหารหรือกองกำลังยืนเฉพาะ ในบางช่วงเวลาของอียิปต์โบราณ
นักวิจัยเชื่อว่าการขาดประสิทธิภาพนี้เกิดขึ้นจากแบบจำลอง AI เพื่ออนุมานจากการเล่าเรื่องประวัติศาสตร์ที่สำคัญและเป็นการยากที่จะเข้าใจรายละเอียดทางประวัติศาสตร์ที่ลึกซึ้งยิ่งขึ้นได้อย่างแม่นยำ นอกจากนี้การวิจัยยังพบว่าแบบจำลองเหล่านี้ยิ่งแย่ลงเมื่อต้องรับมือกับปัญหาทางประวัติศาสตร์ในแอฟริกาตอนใต้และภูมิภาคอื่น ๆ ซึ่งเผยให้เห็นปัญหาของอคติที่อาจมีอยู่ในข้อมูลการฝึกอบรม
Peter Turchin บุคคลที่รับผิดชอบศูนย์วิจัยศูนย์วิทยาศาสตร์ที่ซับซ้อน (CSH) กล่าวว่าการค้นพบแสดงให้เห็นว่าในสาขาวิชาชีพบางแห่ง AI ไม่สามารถแทนที่ผู้เชี่ยวชาญของมนุษย์ได้ อย่างไรก็ตามทีมวิจัยยังคงมองโลกในแง่ดีเกี่ยวกับโอกาสในการใช้งานของ AI ในการวิจัยทางประวัติศาสตร์
ผลการศึกษาครั้งนี้เตือนเราว่าแม้ว่าเทคโนโลยีปัญญาประดิษฐ์ได้พัฒนาอย่างรวดเร็วความรู้และการตัดสินของผู้เชี่ยวชาญในมนุษย์ในบางพื้นที่ยังคงไม่สามารถถูกแทนที่ได้ ในอนาคตเราจำเป็นต้องปรับปรุงโมเดล AI ต่อไปเพื่อให้สามารถจัดการข้อมูลทางประวัติศาสตร์ที่ซับซ้อนได้ดีขึ้นและจัดหาเครื่องมือเสริมที่มีประสิทธิภาพมากขึ้นสำหรับการวิจัยทางประวัติศาสตร์