人工知能はさまざまな分野で強力な能力を実証してきましたが、複雑な歴史問題を扱う際の限界がますます顕著になってきています。最近の研究によると、最先端の大規模言語モデルであっても、微妙な歴史的詳細を処理するには重大な欠陥があることがわかっています。この研究は、既存の AI モデルの信頼性と適用範囲に新たな課題を提起するとともに、将来の AI モデルの改善の方向性について貴重な参考資料を提供します。
新しい研究によると、人工知能はプログラミングやコンテンツ作成などの分野では優れているものの、複雑な歴史問題に対処する場合にはまだ不十分であることがわかっています。 NeurIPS カンファレンスで発表された最近の研究では、最も先進的な大規模言語モデル (LLM) でさえ、歴史知識テストで満足のいく結果を達成するのに苦労していることが示されました。
研究チームは、OpenAI の GPT-4、Meta の Llama、Google の Gemini という 3 つの上位言語モデルを評価するために、Hist-LLM と呼ばれるテスト ベンチマークを開発しました。テストは Seshat の世界的な歴史データベースで実施されましたが、結果は残念なものでした。最高のパフォーマンスを発揮した GPT-4Turbo の精度はわずか 46% でした。
ユニバーシティ・カレッジ・ロンドンの准教授、マリア・デル・リオ・チャノナ氏は、「これらのモデルは、基本的な歴史的事実に関してはうまく機能するが、博士レベルでの詳細な歴史研究となると不十分であることが研究で判明した」と説明した。 AIは、古代エジプトが特定の時代に特定の軍事技術や常備軍を持っていたかどうかの判断を誤るなど、細部で判断を誤ることが多いという。
研究者らは、このパフォーマンスの悪さは、AI モデルが主流の歴史の物語から推論する傾向と、歴史の詳細を正確に把握することが難しいことに起因すると考えています。さらに、この研究では、サハラ以南のアフリカなどの地域の歴史的問題を扱う場合、これらのモデルのパフォーマンスが低下することが判明し、トレーニング データにバイアスの問題がある可能性が明らかになりました。
複雑性科学センター(CSH)の研究責任者ピーター・ターチン氏は、今回の発見は一部の専門分野においてAIがまだ人間の専門家に取って代わることができないことを示していると述べた。しかし、研究チームは歴史研究における AI の応用見通しについて依然として楽観的であり、より良いモデルの開発を支援するためにテスト ベンチマークを改善しています。
この研究結果は、人工知能技術が急速に発展しているにもかかわらず、一部の特定の分野においては、依然として人間の専門家の知識と判断が代替不可能であることを思い出させます。将来的には、複雑な歴史情報をより適切に処理し、歴史研究のためのより効果的な補助ツールを提供できるように、AI モデルをさらに改善する必要があります。