Par Ali Borji, Mehrdad Mohammadian
ResearchGate : lien
Bien que des évaluations informelles des LLM modernes puissent être trouvées sur les réseaux sociaux, les blogs et les médias, une comparaison formelle et complète entre elles n'a pas encore été réalisée. En réponse à cette lacune, nous avons entrepris une évaluation comparative approfondie des LLM et des robots conversationnels. Notre évaluation impliquait la collecte de 1 002 questions englobant 27 catégories, que nous appelons « l’ensemble de données Wordsmiths ». Ces catégories incluent le raisonnement, la logique, les faits, le codage, les préjugés, le langage, l'humour, etc. Chaque question de l'ensemble de données est accompagnée d'une réponse précise et vérifiée. Nous avons méticuleusement évalué quatre chatbots de premier plan : ChatGPT, GPT-4, Bard et Claude, à l'aide de cet ensemble de données. Les résultats de notre évaluation ont révélé les principales conclusions suivantes : a) GPT-4 est apparu comme le chatbot le plus performant dans toutes les catégories, atteignant un taux de réussite de 84,1 %. En revanche, Bard a fait face à des défis et a obtenu un taux de réussite de 62,4 %. b) Parmi les quatre modèles évalués, l'un d'entre eux a répondu correctement environ 93 % du temps. Cependant, tous les modèles n’étaient corrects qu’à environ 44 %. c) Bard est moins corrélé avec d'autres modèles tandis que ChatGPT et GPT-4 sont fortement corrélés en termes de réponses. d) Les chatbots ont démontré leur maîtrise du langage, des faits et de la conscience de soi. Cependant, ils ont rencontré des difficultés dans des domaines tels que les mathématiques, le codage, le QI et le raisonnement. e) En termes de catégories de préjugés, de discrimination et d’éthique, les modèles ont généralement donné de bons résultats, ce qui suggère qu’ils sont relativement sûrs à utiliser. Pour faciliter les futures évaluations de modèles sur notre ensemble de données, nous en proposons également une version à choix multiples (appelée Wordsmiths-MCQ). La compréhension et l’évaluation des capacités et des limites des chatbots modernes ont d’immenses implications sociétales. Dans le but de favoriser la poursuite des recherches dans ce domaine, nous avons rendu notre ensemble de données accessible au public, qui peut être consulté sur Wordsmiths.
à annoncer
Au total, notre ensemble de données contient 1 002 paires question-réponse . Il existe 27 catégories qui peuvent être utilisées pour évaluer les capacités principales et importantes des grands modèles de langage. La figure ci-dessous montre le nombre de questions par catégorie.
Pour accéder à l'ensemble de données, consultez le dossier de données ou téléchargez l'ensemble de données à partir de la section des versions. Les formats json
et csv
sont fournis pour toutes les catégories, vous pouvez les utiliser en fonction de vos besoins. Pour les catégories/questions qui ne nécessitent pas de réponse, « AUCUN » est remplacé comme réponse.
Si vous souhaitez contribuer à l'expansion de l'ensemble de données proposé, veuillez ouvrir un numéro ou simplement envoyer un e-mail. Nous vous encourageons à ajouter vos paires question-réponse dans n’importe quelle catégorie et langue.
Préimpression SSRN :
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
Licence publique générale GNU v3.0