Por Ali Borji e Mehrdad Mohammadian
ResearchGate: link
Embora avaliações informais de LLMs modernos possam ser encontradas em mídias sociais, blogs e meios de comunicação, ainda não foi realizada uma comparação formal e abrangente entre eles. Em resposta a esta lacuna, realizamos uma extensa avaliação de benchmark de LLMs e bots conversacionais. Nossa avaliação envolveu a coleta de 1.002 questões abrangendo 27 categorias, que chamamos de “conjunto de dados Wordsmiths”. Essas categorias incluem raciocínio, lógica, fatos, codificação, preconceito, linguagem, humor e muito mais. Cada pergunta no conjunto de dados é acompanhada por uma resposta precisa e verificada. Avaliamos meticulosamente quatro chatbots líderes: ChatGPT, GPT-4, Bard e Claude, usando este conjunto de dados. Os resultados da nossa avaliação revelaram as seguintes conclusões principais: a) O GPT-4 emergiu como o chatbot de melhor desempenho em todas as categorias, alcançando uma taxa de sucesso de 84,1%. Por outro lado, Bard enfrentou desafios e alcançou uma taxa de sucesso de 62,4%. b) Entre os quatro modelos avaliados, um deles respondeu corretamente em aproximadamente 93% das vezes. No entanto, todos os modelos estavam corretos apenas em cerca de 44%. c) Bard está menos correlacionado com outros modelos enquanto ChatGPT e GPT-4 estão altamente correlacionados em termos de suas respostas. d) Os chatbots demonstraram proficiência na compreensão da linguagem, nos fatos e na autoconsciência. No entanto, eles encontraram dificuldades em áreas como matemática, codificação, QI e raciocínio. e) Em termos de categorias de preconceito, discriminação e ética, os modelos geralmente tiveram um bom desempenho, sugerindo que são relativamente seguros de utilizar. Para facilitar futuras avaliações de modelos em nosso conjunto de dados, também fornecemos uma versão de múltipla escolha dele (chamada Wordsmiths-MCQ). A compreensão e avaliação das capacidades e limitações dos chatbots modernos têm imensas implicações sociais. Num esforço para fomentar novas pesquisas neste campo, disponibilizamos nosso conjunto de dados para acesso público, que pode ser encontrado em Wordsmiths.
a ser anunciado
No total, nosso conjunto de dados contém 1.002 pares de perguntas e respostas . São 27 categorias que podem ser utilizadas para avaliar as principais e importantes habilidades dos grandes modelos de linguagem. A figura abaixo mostra o número de questões por categoria.
Para acessar o conjunto de dados, consulte a pasta de dados ou baixe o conjunto de dados na seção de lançamento. Os formatos json
e csv
são fornecidos para todas as categorias, você pode usá-los de acordo com sua necessidade. Para as categorias/perguntas que não exigem resposta, "NONE" é substituído como resposta.
Se você tiver interesse em contribuir para a expansão do conjunto de dados proposto, abra um issue ou apenas envie um e-mail. Incentivamos você a adicionar seus pares de perguntas e respostas em qualquer categoria e idioma.
Pré-impressão SSRN:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
Licença Pública Geral GNU v3.0