拷問されて泣き叫ぶ! Epoch AI は、数学の新しいベンチマークである FrontierMath を開始します。トップ AI モデルは問題の 2% しか解決しません。
新しいベンチマーク テスト FrontierMath は、AI の数学的推論能力の限界に挑戦するために生まれました。 Downcodes の編集者は、Epoch AI と 60 名以上のトップ数学専門家によって作成された FrontierMath には、数論や実際の解析などの最先端の分野をカバーする、人間の想像を超える数百の数学的問題が含まれていることを知りました。衝撃的なのは、既存のAIモデルがほぼ全滅しており、解決率は2%未満だということだ。これは AI の能力に対する厳しいテストであるだけでなく、「
2024-12-01