作者:阿里‧博爾吉 (Ali Borji)、邁赫達德‧穆罕默德 (Mehrdad Mohammadian)
研究之門:鏈接
儘管在社交媒體、部落格和新聞媒體上可以找到對現代法學碩士的非正式評估,但尚未對它們進行正式和全面的比較。為了彌補這一差距,我們對法學碩士和對話機器人進行了廣泛的基準評估。我們的評估收集了涵蓋 27 個類別的 1002 個問題,我們稱之為「Wordsmiths 資料集」。這些類別包括推理、邏輯、事實、編碼、偏見、語言、幽默等等。資料集中的每個問題都附有準確且經過驗證的答案。我們使用此資料集仔細評估了四個領先的聊天機器人:ChatGPT、GPT-4、Bard 和 Claude。我們的評估結果揭示了以下主要發現:a) GPT-4 成為所有類別中表現最好的聊天機器人,成功率達 84.1%。另一方面,巴德面臨挑戰,取得了62.4%的成功率。 b) 在評估的四個模型中,其中一個模型的反應正確率約為 93%。然而,所有模型的正確率僅為 44% 左右。 c) Bard 與其他模型的相關性較低,而 ChatGPT 和 GPT-4 的反應則高度相關。 d) 聊天機器人表現出對語言理解、事實和自我意識的熟練程度。然而,他們在數學、編碼、智商和推理等領域遇到了困難。 e) 在偏見、歧視和道德類別方面,模型通常表現良好,表明它們使用起來相對安全。為了使未來對我們的資料集的模型評估更加容易,我們還提供了它的多項選擇版本(稱為 Wordsmiths-MCQ)。對現代聊天機器人的功能和限制的理解和評估具有巨大的社會影響。為了促進該領域的進一步研究,我們已將我們的資料集提供給公眾訪問,您可以在 Wordsmiths 上找到該資料集。
待公佈
我們的資料集總共包含1002 個問答對。有27個類別可以用來評估大型語言模型的主要和重要能力。下圖顯示了每個類別的問題數量。
若要存取資料集,請參閱資料資料夾或從發布部分下載資料集。所有類別均提供json
和csv
格式,您可以根據需要使用它們。對於那些不需要答案的類別/問題,「NONE」將被替換為答案。
如果您有興趣為擴展提議的資料集做出貢獻,請提出問題或發送電子郵件。我們鼓勵您新增任何類別和語言的問答對。
SSRN 預印本:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
GNU 通用公共授權 v3.0