AI は高度な歴史試験でパフォーマンスが低い: GPT-4 Turbo の精度はわずか 46% - AI の記事
最近、オーストリアの複雑性科学研究所 (CSH) が主導した研究で、大規模言語モデル (LLM) は複数のタスクではうまく機能するものの、高レベルの歴史的問題を扱う場合には欠点が明らかになったことが示されました。研究チームは、OpenAI の GPT-4 と Meta の Llama を含む 3 つの上位モデルをテストしました
2025-01-28