Али Борджи, Мехрдад Мохаммадиан
ResearchGate: ссылка
Хотя неофициальные оценки современных программ LLM можно найти в социальных сетях, блогах и новостных агентствах, формальное и всестороннее сравнение между ними еще предстоит провести. В ответ на этот пробел мы провели обширную сравнительную оценку LLM и диалоговых ботов. Наша оценка включала сбор 1002 вопросов, охватывающих 27 категорий, которые мы называем «набором данных Wordsmiths». Эти категории включают рассуждения, логику, факты, кодирование, предвзятость, язык, юмор и многое другое. Каждый вопрос в наборе данных сопровождается точным и проверенным ответом. Используя этот набор данных, мы тщательно оценили четырех ведущих чат-ботов: ChatGPT, GPT-4, Bard и Claude. Результаты нашей оценки выявили следующие ключевые выводы: а) GPT-4 стал самым эффективным чат-ботом во всех категориях, достигнув показателя успеха 84,1%. С другой стороны, Бард столкнулся с проблемами и добился успеха в 62,4%. б) Среди четырех оцененных моделей одна из них ответила правильно примерно в 93% случаев. Однако все модели оказались верными лишь примерно на 44%. в) Bard меньше коррелирует с другими моделями, тогда как ChatGPT и GPT-4 сильно коррелируют с точки зрения их ответов. г) Чат-боты продемонстрировали навыки понимания языка, фактов и самосознания. Однако они столкнулись с трудностями в таких областях, как математика, программирование, IQ и рассуждение. д) Что касается категорий предвзятости, дискриминации и этики, модели в целом показали хорошие результаты, что позволяет предположить, что их относительно безопасно использовать. Чтобы упростить будущую оценку модели в нашем наборе данных, мы также предоставляем ее версию с множественным выбором (называемую Wordsmiths-MCQ). Понимание и оценка возможностей и ограничений современных чат-ботов имеют огромные социальные последствия. Стремясь стимулировать дальнейшие исследования в этой области, мы сделали наш набор данных доступным для публичного доступа, который можно найти на сайте Wordsmiths.
будет объявлено
Всего наш набор данных содержит 1002 пары вопрос-ответ . Существует 27 категорий , которые можно использовать для оценки основных и важных возможностей больших языковых моделей. На рисунке ниже показано количество вопросов в каждой категории.
Чтобы получить доступ к набору данных, просмотрите папку данных или загрузите набор данных из раздела релизов. Для всех категорий предусмотрены форматы json
и csv
, вы можете использовать их по своему усмотрению. Для тех категорий/вопросов, которые не требуют ответа, в качестве ответа заменяется «НЕТ».
Если вы заинтересованы в том, чтобы внести свой вклад в расширение предлагаемого набора данных, откройте проблему или просто отправьте электронное письмо. Мы рекомендуем вам добавлять пары вопросов и ответов в любой категории и на любом языке.
Препринт ССРН:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
Стандартная общественная лицензия GNU v3.0