Downcodes の編集者は、Apple の研究者が大規模言語モデル (LLM) の数学的推論機能を対象に、GSM-Symbolic と呼ばれる新しいベンチマーク テストを開始したことを知りました。このテストは GSM8K に基づいており、確率的なパターン マッチングのみに依存するのではなく、LLM の推論機能をより包括的に評価するように設計されています。 GSM8K は普及していますが、データ汚染やパフォーマンスの変動などの問題があります。GSM-Symbolic は、シンボリック テンプレートから多様な数学的問題を生成することでこれらの欠点を克服し、より正確な評価を保証します。
最近、Apple の研究者は、大規模言語モデル (LLM) の数学的推論機能の詳細な研究を実施し、GSM-Symbolic と呼ばれる新しいベンチマークを開始しました。
この新しいベンチマークは、主に基礎的な数学能力を評価するために使用される GSM8K に基づいて開発されています。 GSM8K では多くの LLM のパフォーマンスが向上しましたが、科学界は依然としてこれらのモデルの推論能力について疑問を抱いており、既存の評価指標がその真の能力を完全には反映していない可能性があると考えています。研究によると、LLM は真の論理的推論ではなく、確率的なパターン マッチングに依存することが多く、入力の小さな変化に非常に敏感であることがわかっています。
新しい研究では、研究者らは記号テンプレートを使用して、より信頼性の高い評価を提供する多様な数学的問題を生成しました。実験結果は、問題の数値または複雑さが増加すると、LLM のパフォーマンスが大幅に低下することを示しています。さらに、問題に表面的に関連していても実際には無関係ではない情報を追加した場合でも、モデルのパフォーマンスが最大 65% 低下する可能性があります。これらの結果は、LLM が推論する際に形式的な論理的推論よりもパターン マッチングに依存していることを再度確認します。
GSM8K データセットには 8,000 以上の学年レベルの算数問題が含まれており、その人気により、データの汚染や問題の小さな変更によるパフォーマンスの変動など、いくつかのリスクが生じます。これらの課題に対処するために、GSM-Symbolic の登場により、問題の多様性を効果的に制御できるようになりました。このベンチマークは、100 のテンプレートからの 5,000 のサンプルを使用して 20 を超えるオープン モデルとクローズ モデルを評価し、LLM の数学的推論機能の洞察と限界を実証します。
予備実験では、GSM-Symbolic 上のさまざまなモデルのパフォーマンスが大幅に異なり、全体的な精度が GSM8K で報告されているパフォーマンスよりも低いことが示されています。この研究では、LLM に対する変数名と値の変更の影響がさらに調査され、その結果、値の変更がパフォーマンスに大きな影響を与えることが示されました。さらに、問題の複雑さも精度に直接影響し、複雑な問題はパフォーマンスの大幅な低下につながります。これらの結果は、数学的問題を扱う際に、モデルが真の推論能力よりもパターン マッチングに依存している可能性があることを示唆しています。
この研究では、現在の GSM8K 評価の限界を強調し、LLM の数学的推論機能を評価するために設計された新しいベンチマークである GSM-Symbolic を紹介します。全体として、この調査結果は、LLM が複雑な問題を扱う際に論理的推論能力をさらに向上させる必要があることを示しています。
論文: https://arxiv.org/abs/2410.05229
全体として、Apple が提案した GSM-Symbolic ベンチマークは、大規模な言語モデルの数学的推論能力を評価するための新しい視点を提供し、LLM には論理的推論にまだ改善の余地があることも明らかにしており、これは将来のモデルの改善への道を示しています。 LLM の推論能力の開発をさらに促進するために、今後さらに研究が行われることを楽しみにしています。