EACL 2024ペーパーのGitHubリポジトリ「WSC+:Tree-of-Expertsを使用したWinograd Schema Challengeの強化」へようこそ。このプロジェクトでは、マシンの理解を評価するためのベンチマークであるWinograd Schema Challenge(WSC)の質問を生成する際に、大規模な言語モデル(LLMS)の機能を調査します。新しいデータセット、WSC+を、モデルの過度の自信とバイアスに関するより深い洞察を提供するために、新しいデータセットであるWSC+を紹介します。
Winograd Schema Challenge(WSC)は、マシンの理解を評価するための顕著なベンチマークとして機能します。大規模な言語モデル(LLMS)はWSCの質問への回答に優れていますが、そのような質問を生成する能力はあまり探求されていません。この作業では、WSCインスタンスの生成を強化する新しいプロンプト方法(最近の方法では10%)を強化する新しいプロンプト方法であるTree-of-Experts(TOE)を提案します。このアプローチを使用して、3,026 LLM生成文を含む新しいデータセットであるWSC+を紹介します。特に、新しい「あいまいな」カテゴリと「攻撃的な」カテゴリを組み込むことにより、WSCフレームワークを拡張し、モデルの過度の自信とバイアスに関するより深い洞察を提供します。私たちの分析により、生成評価の一貫性のニュアンスが明らかになり、LLMが他のモデルによって作成されたモデルと比較された場合、生成された質問を評価する際にLLMが常にアウトパフォームするとは限らないことが示唆されています。 WSC+、GPT-4では、最高のパフォーマンスのLLMであり、68.7%の精度を達成し、95.1%の人間のベンチマークを大幅に下回ります。
この作業における私たちの重要な貢献は3つあります:
WSC+データセット:WSC+を発表し、3,026 LLM生成インスタンスを備えています。このデータセットは、「曖昧」や「攻撃」などのカテゴリを使用して元のWSCを拡張します。興味深いことに、GPT-4(Openai、2023)は、最前線であるにもかかわらず、WSC+で68.7%しか得点で、人間のベンチマークを95.1%下回っています。
Tree-of-Experts(TOE) :WSC+インスタンス生成に適用する革新的な方法であるTree-of-Expertsを提示します。つま先は、有効なWSC+文の生成を、考え方などの最近の方法と比較して40%近く改善します(Wei et al。、2022)。
生成評価の一貫性:LLMSにおける生成評価の一貫性の新しい概念を探り、GPT-3.5などのモデルが、それ自体が生成する例ではしばしばパフォーマンスが低いことを明らかにし、より深い推論格差を示唆しています。
質問やお問い合わせについては、Pardis.zahraei01 [at] Sharif [dot] eduでお気軽にお問い合わせください。