เมื่อเร็วๆ นี้ สถาบันวิทยาศาสตร์ความซับซ้อนของออสเตรีย (CSH) ได้ประเมินความรู้ทางประวัติศาสตร์ของแบบจำลองภาษาขนาดใหญ่ (LLM) ชั้นนำ 3 แบบ ได้แก่ GPT-4 ลามะ และราศีเมถุน และผลลัพธ์ที่ได้ก็น่าประหลาดใจ ทีมวิจัยใช้เครื่องมือทดสอบเกณฑ์มาตรฐานที่เรียกว่า "Hist-LLM" เพื่อทดสอบความแม่นยำของแบบจำลองในการตอบคำถามทางประวัติศาสตร์โดยอิงตามฐานข้อมูลประวัติศาสตร์ทั่วโลกของ Seshat ผลการวิจัยได้รับการประกาศที่การประชุมปัญญาประดิษฐ์ NeurIPS และผลลัพธ์ที่ได้กระตุ้นให้ผู้คนเกิดความคิดอย่างลึกซึ้งเกี่ยวกับความสามารถในการประยุกต์ของ LLM ในสาขาที่ซับซ้อน
เพื่อประเมินประสิทธิภาพของแบบจำลองเหล่านี้เกี่ยวกับความรู้ทางประวัติศาสตร์ นักวิจัยได้พัฒนาเครื่องมือมาตรฐานที่เรียกว่า "Hist-LLM" เครื่องมือนี้อิงตามฐานข้อมูลประวัติทั่วโลกของ Seshat และได้รับการออกแบบมาเพื่อตรวจสอบความถูกต้องของคำตอบของ AI สำหรับคำถามทางประวัติศาสตร์ ผลการวิจัยได้รับการประกาศในการประชุมปัญญาประดิษฐ์ชื่อดัง NeurIPS ข้อมูลดังกล่าวแสดงให้เห็นว่าความแม่นยำของ GPT-4Turbo ที่มีประสิทธิภาพดีที่สุดนั้นมีเพียง 46% เท่านั้น ผลลัพธ์นี้แสดงให้เห็นว่าประสิทธิภาพดีกว่าการเดาแบบสุ่มเพียงเล็กน้อยเท่านั้น
Maria del Rio-Chanona รองศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ University College London กล่าวว่า "แม้ว่าแบบจำลองภาษาขนาดใหญ่จะน่าประทับใจ แต่ความเข้าใจเชิงลึกสำหรับความรู้ทางประวัติศาสตร์ระดับสูงยังไม่เพียงพอ พวกเขาเก่งในการจัดการข้อเท็จจริงง่ายๆ แต่มีปัญหากับ ตัวอย่างเช่น เมื่อถามว่ามีเกราะเกล็ดในอียิปต์โบราณในช่วงเวลาใดเวลาหนึ่งหรือไม่ GPT-4Turbo ก็ตอบผิดว่า "ใช่" ทั้งที่จริงๆ แล้วเทคโนโลยีนี้ไม่ปรากฏจนกระทั่ง 1,500 ปีที่แล้ว นอกจากนี้ เมื่อนักวิจัยถามว่าอียิปต์โบราณมีกองทัพที่เชี่ยวชาญหรือไม่ GPT-4 ก็ตอบผิดว่า "ใช่" ทั้งที่คำตอบที่แท้จริงคือไม่
การศึกษายังเผยด้วยว่าโมเดลดังกล่าวทำงานได้ไม่ดีในบางภูมิภาค เช่น แอฟริกาใต้สะฮารา ซึ่งบ่งชี้ว่าข้อมูลการฝึกอาจมีอคติ Peter Turchin ผู้นำการศึกษาชี้ให้เห็นว่าผลลัพธ์เหล่านี้สะท้อนให้เห็นว่าในบางพื้นที่ LLM ยังคงไม่สามารถแทนที่มนุษย์ได้
ไฮไลท์:
- GPT-4Turbo ทำได้ไม่ดีในการสอบประวัติขั้นสูงด้วยความแม่นยำเพียง 46%
- การวิจัยแสดงให้เห็นว่าแบบจำลองภาษาขนาดใหญ่ยังคงไม่เพียงพอในการทำความเข้าใจความรู้ทางประวัติศาสตร์ที่ซับซ้อน
- ทีมวิจัยหวังที่จะปรับปรุงศักยภาพการประยุกต์ใช้แบบจำลองในการวิจัยในอดีตโดยการปรับปรุงเครื่องมือทดสอบ
ผลการศึกษาครั้งนี้เตือนเราว่าแม้ว่าแบบจำลองภาษาขนาดใหญ่จะมีความก้าวหน้าอย่างมากในหลาย ๆ ด้าน แต่ก็ยังมีข้อจำกัดในการจัดการกับปัญหาที่ซับซ้อนซึ่งต้องใช้ความเข้าใจอย่างลึกซึ้งและการวิเคราะห์อย่างพิถีพิถัน การวิจัยในอนาคตจำเป็นต้องมุ่งเน้นไปที่วิธีปรับปรุงข้อมูลการฝึกอบรมและอัลกอริธึมของโมเดล เพื่อเพิ่มขีดความสามารถในการใช้งานในสาขาต่างๆ และบรรลุถึงปัญญาประดิษฐ์ทั่วไปที่แท้จริงในท้ายที่สุด