作者:阿里·博尔吉 (Ali Borji)、迈赫达德·穆罕默德 (Mehrdad Mohammadian)
研究之门:链接
尽管在社交媒体、博客和新闻媒体上可以找到对现代法学硕士的非正式评估,但尚未对它们进行正式和全面的比较。为了弥补这一差距,我们对法学硕士和对话机器人进行了广泛的基准评估。我们的评估收集了涵盖 27 个类别的 1002 个问题,我们将其称为“Wordsmiths 数据集”。这些类别包括推理、逻辑、事实、编码、偏见、语言、幽默等等。数据集中的每个问题都附有准确且经过验证的答案。我们使用此数据集仔细评估了四个领先的聊天机器人:ChatGPT、GPT-4、Bard 和 Claude。我们的评估结果揭示了以下主要发现:a) GPT-4 成为所有类别中表现最好的聊天机器人,成功率达到 84.1%。另一方面,巴德面临挑战,取得了62.4%的成功率。 b) 在评估的四个模型中,其中一个模型的响应正确率约为 93%。然而,所有模型的正确率仅为 44% 左右。 c) Bard 与其他模型的相关性较低,而 ChatGPT 和 GPT-4 的响应高度相关。 d) 聊天机器人表现出对语言理解、事实和自我意识的熟练程度。然而,他们在数学、编码、智商和推理等领域遇到了困难。 e) 在偏见、歧视和道德类别方面,模型通常表现良好,表明它们使用起来相对安全。为了使未来对我们的数据集的模型评估更加容易,我们还提供了它的多项选择版本(称为 Wordsmiths-MCQ)。对现代聊天机器人的功能和局限性的理解和评估具有巨大的社会影响。为了促进该领域的进一步研究,我们已将我们的数据集提供给公众访问,您可以在 Wordsmiths 上找到该数据集。
待公布
我们的数据集总共包含1002 个问答对。有27个类别可以用来评估大型语言模型的主要和重要能力。下图显示了每个类别的问题数量。
要访问数据集,请参阅数据文件夹或从发布部分下载数据集。所有类别均提供json
和csv
格式,您可以根据需要使用它们。对于那些不需要答案的类别/问题,“NONE”将被替换为答案。
如果您有兴趣为扩展提议的数据集做出贡献,请提出问题或发送电子邮件。我们鼓励您添加任何类别和语言的问答对。
SSRN 预印本:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
GNU 通用公共许可证 v3.0