최근 오스트리아 복잡성 과학 연구소(CSH)는 세 가지 최고의 대규모 언어 모델(LLM)인 GPT-4, Llama 및 Gemini에 대한 역사적 지식을 평가했으며 그 결과는 놀라웠습니다. 연구팀은 Seshat 글로벌 과거 데이터베이스를 기반으로 역사적 질문에 답하는 모델의 정확성을 테스트하기 위해 "Hist-LLM"이라는 벤치마크 테스트 도구를 사용했습니다. 연구 결과는 NeurIPS 인공 지능 컨퍼런스에서 발표되었으며, 그 결과는 복잡한 분야에서 LLM의 적용 능력에 대한 사람들의 깊은 생각을 촉발시켰습니다.
역사적 지식에 대한 이러한 모델의 성능을 평가하기 위해 연구원들은 "Hist-LLM"이라는 벤치마크 도구를 개발했습니다. 이 도구는 Seshat 글로벌 과거 데이터베이스를 기반으로 하며 과거 질문에 대한 AI 답변의 정확성을 검증하도록 설계되었습니다. 연구 결과는 유명 인공지능 컨퍼런스인 NeurIPS에서 발표되었는데, 데이터에 따르면 최고 성능을 발휘하는 GPT-4Turbo의 정확도는 46%에 불과했습니다. 이 결과는 무작위 추측보다 성능이 약간 더 우수하다는 것을 보여줍니다.
University College London의 컴퓨터 과학 부교수인 Maria del Rio-Chanona는 다음과 같이 말했습니다. "대형 언어 모델은 인상적이지만 높은 수준의 역사적 지식에 대한 이해의 깊이는 부족합니다. 그들은 단순한 사실을 처리하는 데 능숙하지만 예를 들어, 특정 시점에 고대 이집트에 비늘 갑옷이 존재했는지 묻는 질문에 GPT-4Turbo는 "예"라고 잘못 대답했지만 실제로 이 기술은 1,500년 전까지 나타나지 않았습니다. 또한 연구자들이 고대 이집트에 전문적인 상비군이 있었는지 물었을 때 GPT-4도 실제 대답이 '아니오'였으나 '예'라고 잘못 대답했습니다.
또한 이 연구는 사하라 이남 아프리카와 같은 특정 지역에서 모델의 성능이 좋지 않은 것으로 나타났으며, 이는 훈련 데이터가 편향될 수 있음을 시사합니다. 연구 리더인 Peter Turchin은 이러한 결과가 일부 영역에서는 LLM이 여전히 인간을 대체할 수 없음을 반영한다고 지적했습니다.
가장 밝은 부분:
- GPT-4Turbo는 고급 이력 시험에서 정확도가 46%에 불과하여 부진한 성적을 거두었습니다.
- 연구에 따르면 복잡한 역사적 지식을 이해하는 데에는 대규모 언어 모델이 아직 부족한 것으로 나타났습니다.
- 연구팀은 테스트 도구를 개선하여 역사 연구에서 모델의 적용 가능성을 향상시키기를 희망합니다.
본 연구의 결과는 대규모 언어 모델이 여러 측면에서 상당한 발전을 이루었음에도 불구하고 깊은 이해와 세심한 분석이 필요한 복잡한 문제를 다루는 데에는 여전히 한계가 있음을 상기시켜 줍니다. 향후 연구는 모델의 훈련 데이터와 알고리즘을 어떻게 개선해 다양한 분야에서의 활용 능력을 향상시키고, 궁극적으로 진정한 일반 인공지능을 구현하는지에 초점을 맞춰야 한다.