最近、オーストリア複雑性科学研究所 (CSH) は、GPT-4、Llama、Gemini という 3 つの上位大規模言語モデル (LLM) の歴史的知識を評価しましたが、その結果は驚くべきものでした。研究チームは、「Hist-LLM」と呼ばれるベンチマークテストツールを使用して、Seshatの世界的な歴史データベースに基づいて歴史的な質問に答えるモデルの精度をテストしました。研究結果は NeurIPS 人工知能カンファレンスで発表され、複雑な分野での LLM の応用能力について人々が深く考えるきっかけとなりました。
歴史的知識に基づいてこれらのモデルのパフォーマンスを評価するために、研究者らは「Hist-LLM」と呼ばれるベンチマーク ツールを開発しました。このツールは、Seshat グローバル歴史データベースに基づいており、歴史的な質問に対する AI の回答の正確さを検証するように設計されています。この研究結果は、有名な人工知能会議 NeurIPS で発表されました。そのデータによると、最も優れたパフォーマンスを発揮する GPT-4Turbo の精度はわずか 46% でした。この結果は、パフォーマンスがランダムな推測よりわずかに優れているだけであることを示しています。
ユニバーシティ・カレッジ・ロンドンのコンピュータ・サイエンス准教授、マリア・デル・リオ・チャノナ氏は、「大規模な言語モデルは印象的だが、高度な歴史的知識に対する理解の深さは不十分だ。彼らは単純な事実を扱うのは得意だが、理解するのに苦労している」と語った。たとえば、スケール アーマーが特定の時代に古代エジプトに存在したかどうかを尋ねられたとき、GPT-4Turbo は「はい」と誤って答えましたが、実際にはこのテクノロジーは 1,500 年前まで登場していませんでした。さらに、研究者が古代エジプトには専門の常備軍があったかどうかを尋ねたとき、実際の答えは「いいえ」であるにもかかわらず、GPT-4 は誤って「はい」と答えました。
この研究では、サハラ以南のアフリカなどの特定の地域ではモデルのパフォーマンスが低いことも明らかになり、トレーニング データに偏りがある可能性が示唆されました。研究リーダーのピーター・ターチン氏は、これらの結果は、一部の地域ではLLMがまだ人間に取って代わることができないことを反映していると指摘した。
ハイライト:
- GPT-4Turbo は、高度な履歴試験での成績が悪く、精度はわずか 46% でした。
- 研究によると、大規模な言語モデルでは、複雑な歴史的知識を理解するにはまだ不十分です。
- 研究チームは、テストツールを改善することで、歴史研究におけるモデルの応用可能性を向上させたいと考えています。
この研究の結果は、大規模言語モデルは多くの面で大幅な進歩を遂げたものの、深い理解と綿密な分析を必要とする複雑な問題を扱う場合にはまだ限界があることを思い出させます。今後の研究では、モデルのトレーニング データとアルゴリズムを改善して、さまざまな分野での応用機能を強化し、最終的には真の汎用人工知能を実現する方法に焦点を当てる必要があります。