인공지능은 다양한 분야에서 강력한 역량을 발휘했지만, 복잡한 역사적 문제를 다루는데 한계가 점점 더 두드러지고 있다. 최근 연구에 따르면 최첨단 대규모 언어 모델조차도 미묘한 역사적 세부 사항을 처리하는 데 상당한 결함이 있는 것으로 나타났습니다. 본 연구는 기존 AI 모델의 신뢰성과 적용 범위에 대한 새로운 과제를 제기하고, 향후 AI 모델의 개선 방향에 대한 귀중한 참고 자료를 제공합니다.
새로운 연구에 따르면 인공지능은 프로그래밍, 콘텐츠 제작 등의 분야에서는 탁월하지만 복잡한 역사적 문제를 다루는 데 있어서는 여전히 부족한 것으로 나타났습니다. NeurIPS 컨퍼런스에서 발표된 최근 연구에 따르면 가장 발전된 LLM(대형 언어 모델)조차도 역사 지식 테스트에서 만족스러운 결과를 얻기 위해 애쓰는 것으로 나타났습니다.
연구팀은 OpenAI의 GPT-4, Meta의 Llama, Google의 Gemini 등 세 가지 주요 언어 모델을 평가하기 위해 Hist-LLM이라는 테스트 벤치마크를 개발했습니다. 테스트는 Seshat 글로벌 이력 데이터베이스에서 수행되었으며 결과는 실망스러웠습니다. 가장 성능이 좋은 GPT-4Turbo의 정확도는 46%에 불과했습니다.
유니버시티 칼리지 런던(University College London)의 부교수인 마리아 델 리오-차노나(Maria Del Rio-Chanona)는 "이러한 모델은 기본적인 역사적 사실에 관해서는 잘 작동하지만 박사 수준의 심층적인 역사 연구에서는 부족하다는 사실이 밝혀졌습니다."라고 설명했습니다. AI는 고대 이집트가 특정 군사 기술을 보유했는지 또는 특정 기간 동안 상비군을 보유했는지에 대한 잘못된 판단과 같은 세부 사항에서 종종 잘못된 정보를 얻습니다.
연구원들은 이러한 저조한 성능이 AI 모델이 주류 역사적 서술에서 추론하는 경향과 더 미세한 역사적 세부 사항을 정확하게 파악하는 데 어려움이 있기 때문에 발생한다고 믿습니다. 또한 연구에서는 사하라 이남 아프리카와 같은 지역의 역사적 문제를 다룰 때 이러한 모델의 성능이 저하되어 훈련 데이터에 편향 문제가 노출될 수 있음을 발견했습니다.
복잡성 과학 센터(CSH)의 연구 책임자인 피터 터친(Peter Turchin)은 이번 발견은 일부 전문 분야에서 AI가 아직 인간 전문가를 대체할 수 없다는 것을 보여준다고 말했습니다. 그러나 연구팀은 역사적 연구에서 AI의 적용 전망에 대해 여전히 낙관적이며 더 나은 모델 개발을 돕기 위해 테스트 벤치마크를 개선하고 있습니다.
이번 연구 결과는 인공지능 기술이 급속도로 발전하고 있음에도 불구하고 일부 특정 분야에서는 여전히 인간 전문가의 지식과 판단이 대체 불가능하다는 점을 상기시켜준다. 앞으로 AI 모델은 복잡한 역사 정보를 더 잘 처리하고 역사 연구에 보다 효과적인 보조 도구를 제공할 수 있도록 더욱 개선되어야 한다.