アリ・ボルジ、メルダード・モハマディアン著
リサーチゲート: リンク
最新の LLM の非公式な評価はソーシャル メディア、ブログ、報道機関で見つけることができますが、それらの間の正式かつ包括的な比較はまだ行われていません。このギャップに対応するために、私たちは LLM と会話型ボットの広範なベンチマーク評価を実施しました。私たちの評価には、27 のカテゴリを含む 1002 の質問のコレクションが含まれており、これを「Wordsmiths データセット」と呼びます。これらのカテゴリには、推論、論理、事実、コーディング、偏見、言語、ユーモアなどが含まれます。データセット内の各質問には、正確で検証済みの回答が付いています。このデータセットを使用して、ChatGPT、GPT-4、Bard、Claude の 4 つの主要なチャットボットを綿密に評価しました。評価の結果、次の重要な結果が明らかになりました。 a) GPT-4 は、すべてのカテゴリで最高のパフォーマンスを誇るチャットボットとして浮上し、84.1% の成功率を達成しました。一方、Bard は課題に直面し、62.4% の成功率を達成しました。 b) 評価した 4 つのモデルのうち、1 つは約 93% の確率で正しく応答しました。ただし、すべてのモデルの正解率はわずか約 44% でした。 c) Bard は他のモデルとの相関性が低いですが、ChatGPT と GPT-4 は応答の点で高い相関性があります。 d) チャットボットは、言語理解、事実、自己認識において熟練していることを示しました。しかし、数学、コーディング、IQ、推論などの分野で困難に直面しました。 e) 偏見、差別、倫理のカテゴリーに関しては、モデルは一般に良好なパフォーマンスを示し、比較的安全に利用できることを示唆しています。データセットに対する将来のモデル評価を容易にするために、多肢選択バージョン (Wordsmiths-MCQ と呼ばれる) も提供しています。最新のチャットボットの機能と限界の理解と評価は、社会に多大な影響を及ぼします。この分野でのさらなる研究を促進するために、私たちはデータセットを一般公開し、Wordsmiths で見つけることができます。
発表される
合計で、私たちのデータセットには1002 の質問と回答のペアが含まれています。大規模な言語モデルの主要かつ重要な能力を評価するために使用できる27 のカテゴリがあります。以下の図は、カテゴリごとの質問数を示しています。
データセットにアクセスするには、データ フォルダーを参照するか、リリース セクションからデータセットをダウンロードします。すべてのカテゴリに対してjson
形式とcsv
形式の両方が提供されており、必要に応じて使用できます。回答を必要としないカテゴリ/質問については、回答として「なし」が置き換えられます。
提案されたデータセットの拡張に貢献することに興味がある場合は、問題を開くか、電子メールを送信してください。任意のカテゴリおよび言語で質問と回答のペアを追加することをお勧めします。
SSRN プレプリント:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
GNU 一般公衆利用許諾書 v3.0