Battle of the Wordsmiths下載 - Battle of the Wordsmiths原始碼下載

Battle of the Wordsmiths

Ai源碼

1.0.0

下載

Battle of the Wordsmiths ：比較 ChatGPT、GPT-4、Claude 和 Bard（資料集）

作者：阿里‧博爾吉 (Ali Borji)、邁赫達德‧穆罕默德 (Mehrdad Mohammadian)

研究之門：鏈接

抽象的

儘管在社交媒體、部落格和新聞媒體上可以找到對現代法學碩士的非正式評估，但尚未對它們進行正式和全面的比較。為了彌補這一差距，我們對法學碩士和對話機器人進行了廣泛的基準評估。我們的評估收集了涵蓋 27 個類別的 1002 個問題，我們稱之為「Wordsmiths 資料集」。這些類別包括推理、邏輯、事實、編碼、偏見、語言、幽默等等。資料集中的每個問題都附有準確且經過驗證的答案。我們使用此資料集仔細評估了四個領先的聊天機器人：ChatGPT、GPT-4、Bard 和 Claude。我們的評估結果揭示了以下主要發現：a) GPT-4 成為所有類別中表現最好的聊天機器人，成功率達 84.1%。另一方面，巴德面臨挑戰，取得了62.4%的成功率。 b) 在評估的四個模型中，其中一個模型的反應正確率約為 93%。然而，所有模型的正確率僅為 44% 左右。 c) Bard 與其他模型的相關性較低，而 ChatGPT 和 GPT-4 的反應則高度相關。 d) 聊天機器人表現出對語言理解、事實和自我意識的熟練程度。然而，他們在數學、編碼、智商和推理等領域遇到了困難。 e) 在偏見、歧視和道德類別方面，模型通常表現良好，表明它們使用起來相對安全。為了使未來對我們的資料集的模型評估更加容易，我們還提供了它的多項選擇版本（稱為 Wordsmiths-MCQ）。對現代聊天機器人的功能和限制的理解和評估具有巨大的社會影響。為了促進該領域的進一步研究，我們已將我們的資料集提供給公眾訪問，您可以在 Wordsmiths 上找到該資料集。

結果

待公佈

關於數據集

我們的資料集總共包含1002 個問答對。有27個類別可以用來評估大型語言模型的主要和重要能力。下圖顯示了每個類別的問題數量。

下載

若要存取資料集，請參閱資料資料夾或從發布部分下載資料集。所有類別均提供json和csv格式，您可以根據需要使用它們。對於那些不需要答案的類別/問題，「NONE」將被替換為答案。

文字匠
Wordsmiths-MCQ（多項選擇題）
依難度對問題進行聚類

貢獻

如果您有興趣為擴展提議的資料集做出貢獻，請提出問題或發送電子郵件。我們鼓勵您新增任何類別和語言的問答對。

引文

SSRN 預印本：

Battle of the Wordsmiths: Comparing ChatGPT, GPT-4, Claude, and Bard}, journal = {SSRN Electronic Journal}, doi = {10.2139/ssrn.4476855} }">

 @misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}