欢迎使用我们的EACL 2024纸“ WSC+:使用Experts增强Winograd模式挑战”的GitHub存储库。该项目探讨了大语言模型(LLMS)为Winograd模式挑战(WSC)生成问题的功能,这是评估机器理解的基准。我们介绍了一种新颖的提示方法,专家树(脚趾)和一个新的数据集WSC+,以提供对模型过度自信和偏见的更深入的见解。
Winograd模式挑战(WSC)是评估机器理解的重要基准。尽管大型语言模型(LLMS)在回答WSC问题方面表现出色,但它们产生此类问题的能力仍然不那么探索。在这项工作中,我们提出了专家树(TOE),这是一种新颖的提示方法,可增强WSC实例的产生(50%有效案例,而在最近的方法中为10%)。使用这种方法,我们介绍了WSC+,这是一个包含3,026个LLM生成句子的新型数据集。值得注意的是,我们通过结合新的“模棱两可”和“进攻”类别来扩展WSC框架,从而更深入地了解模型过度自信和偏见。我们的分析揭示了生成评估一致性的细微差别,这表明LLM与其他模型相比,在评估自己的生成问题方面可能并不总是胜过。在WSC+,GPT-4(表现最好的LLM)上,其准确度为68.7%,明显低于人类基准95.1%。
我们在这项工作中的主要贡献是三重的:
WSC+数据集:我们揭幕了WSC+,具有3,026个LLM生成的实例。该数据集以“模棱两可”和“进攻”之类的类别增强了原始WSC。有趣的是,尽管GPT-4(OpenAI,2023年),尽管是领先者,但在WSC+上仅得分68.7%,远低于95.1%的人类基准。
专家树(脚趾) :我们提出了专家树,这是一种适用于WSC+实例生成的创新方法。与最近的思想链(Wei等,2022)相比,脚趾将有效的WSC+句子的产生提高了近40%。
生成评估的一致性:我们探讨了LLMS中发电评估一致性的新颖概念,揭示了诸如GPT-3.5之类的模型在其本身会产生的情况下通常表现不佳,暗示了更深的推理差异。
如有任何疑问或查询,请随时在pardis.zahraei01 [at] sharif [dot] edu与我们联系