Von Ali Borji, Mehrdad Mohammadian
ResearchGate: Link
Obwohl informelle Bewertungen moderner LLMs in sozialen Medien, Blogs und Nachrichtenagenturen zu finden sind, muss noch ein formeller und umfassender Vergleich zwischen ihnen durchgeführt werden. Als Reaktion auf diese Lücke haben wir eine umfassende Benchmark-Bewertung von LLMs und Conversational Bots durchgeführt. Unsere Auswertung umfasste die Sammlung von 1002 Fragen zu 27 Kategorien, die wir als „Wordsmiths-Datensatz“ bezeichnen. Zu diesen Kategorien gehören Argumentation, Logik, Fakten, Codierung, Voreingenommenheit, Sprache, Humor und mehr. Jede Frage im Datensatz wird von einer genauen und überprüften Antwort begleitet. Anhand dieses Datensatzes haben wir vier führende Chatbots sorgfältig bewertet: ChatGPT, GPT-4, Bard und Claude. Die Ergebnisse unserer Evaluierung ergaben folgende zentrale Erkenntnisse: a) GPT-4 erwies sich in allen Kategorien als der leistungsstärkste Chatbot und erreichte eine Erfolgsquote von 84,1 %. Andererseits stand Bard vor Herausforderungen und erreichte eine Erfolgsquote von 62,4 %. b) Von den vier bewerteten Modellen reagierte eines in etwa 93 % der Fälle richtig. Allerdings lagen alle Modelle nur zu etwa 44 % richtig. c) Bard korreliert weniger mit anderen Modellen, während ChatGPT und GPT-4 hinsichtlich ihrer Antworten stark korreliert sind. d) Chatbots zeigten Kompetenz im Sprachverständnis, in Fakten und in der Selbstwahrnehmung. Sie stießen jedoch auf Schwierigkeiten in Bereichen wie Mathematik, Programmieren, Intelligenz und logisches Denken. e) In Bezug auf die Kategorien Voreingenommenheit, Diskriminierung und Ethik schnitten die Modelle im Allgemeinen gut ab, was darauf hindeutet, dass ihre Verwendung relativ sicher ist. Um zukünftige Modellauswertungen unseres Datensatzes zu erleichtern, stellen wir auch eine Multiple-Choice-Version davon (genannt Wordsmiths-MCQ) zur Verfügung. Das Verständnis und die Bewertung der Fähigkeiten und Grenzen moderner Chatbots haben enorme gesellschaftliche Auswirkungen. Um die weitere Forschung auf diesem Gebiet zu fördern, haben wir unseren Datensatz öffentlich zugänglich gemacht, der bei Wordsmiths zu finden ist.
bekannt gegeben werden
Insgesamt enthält unser Datensatz 1002 Frage-Antwort-Paare . Es gibt 27 Kategorien , anhand derer die wichtigsten und wichtigsten Fähigkeiten der großen Sprachmodelle bewertet werden können. Die folgende Abbildung zeigt die Anzahl der Fragen pro Kategorie.
Um auf den Datensatz zuzugreifen, sehen Sie sich den Datenordner an oder laden Sie den Datensatz aus dem Release-Bereich herunter. Für alle Kategorien werden sowohl json
als auch csv
-Formate bereitgestellt. Sie können sie je nach Bedarf verwenden. Für jene Kategorien/Fragen, die keiner Antwort bedürfen, wird als Antwort „KEINE“ ersetzt.
Wenn Sie daran interessiert sind, zur Erweiterung des vorgeschlagenen Datensatzes beizutragen, eröffnen Sie bitte ein Problem oder senden Sie einfach eine E-Mail. Wir empfehlen Ihnen, Ihre Frage-Antwort-Paare in einer beliebigen Kategorie und Sprache hinzuzufügen.
SSRN-Vorabdruck:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
GNU General Public License v3.0