Por Ali Borji y Mehrdad Mohammadian
Puerta de la investigación: enlace
Aunque se pueden encontrar evaluaciones informales de los LLM modernos en las redes sociales, blogs y medios de comunicación, aún no se ha realizado una comparación formal y exhaustiva entre ellos. En respuesta a esta brecha, hemos llevado a cabo una extensa evaluación comparativa de LLM y robots conversacionales. Nuestra evaluación implicó la recopilación de 1002 preguntas que abarcan 27 categorías, a las que nos referimos como el "conjunto de datos de Wordsmiths". Estas categorías incluyen razonamiento, lógica, hechos, codificación, prejuicios, lenguaje, humor y más. Cada pregunta del conjunto de datos va acompañada de una respuesta precisa y verificada. Evaluamos meticulosamente cuatro chatbots líderes: ChatGPT, GPT-4, Bard y Claude, utilizando este conjunto de datos. Los resultados de nuestra evaluación revelaron los siguientes hallazgos clave: a) GPT-4 surgió como el chatbot con mejor rendimiento en todas las categorías, logrando una tasa de éxito del 84,1%. Por otro lado, Bard enfrentó desafíos y logró una tasa de éxito del 62,4%. b) Entre los cuatro modelos evaluados, uno de ellos respondió correctamente aproximadamente el 93% de las veces. Sin embargo, todos los modelos eran correctos sólo alrededor del 44%. c) Bard está menos correlacionado con otros modelos, mientras que ChatGPT y GPT-4 están altamente correlacionados en términos de sus respuestas. d) Los chatbots demostraron competencia en la comprensión del lenguaje, los hechos y la autoconciencia. Sin embargo, encontraron dificultades en áreas como matemáticas, codificación, coeficiente intelectual y razonamiento. e) En términos de sesgo, discriminación y categorías de ética, los modelos generalmente funcionaron bien, lo que sugiere que su uso es relativamente seguro. Para facilitar las futuras evaluaciones de modelos en nuestro conjunto de datos, también proporcionamos una versión de opción múltiple (llamada Wordsmiths-MCQ). La comprensión y evaluación de las capacidades y limitaciones de los chatbots modernos tienen inmensas implicaciones sociales. En un esfuerzo por fomentar más investigaciones en este campo, hemos puesto nuestro conjunto de datos a disposición del público, que se puede encontrar en Wordsmiths.
ser anunciado
En total, nuestro conjunto de datos contiene 1002 pares de preguntas y respuestas . Hay 27 categorías que se pueden utilizar para evaluar las habilidades principales e importantes de los grandes modelos lingüísticos. La siguiente figura muestra el número de preguntas por categoría.
Para acceder al conjunto de datos, consulte la carpeta de datos o descargue el conjunto de datos desde la sección de lanzamiento. Se proporcionan formatos json
y csv
para todas las categorías; puede usarlos según sus necesidades. Para aquellas categorías/preguntas que no requieren respuesta, se reemplaza "NINGUNO" como respuesta.
Si está interesado en contribuir a ampliar el conjunto de datos propuesto, abra un problema o simplemente envíe un correo electrónico. Le recomendamos que agregue sus pares de preguntas y respuestas en cualquier categoría e idioma.
Preimpresión SSRN:
@misc{BorjiMohammadianWordsmiths,
author = {Borji, Ali and Mohammadian, Mehrdad},
year = {2023},
month = {06},
pages = {},
title = { Battle of the Wordsmiths : Comparing ChatGPT, GPT-4, Claude, and Bard},
journal = {SSRN Electronic Journal},
doi = {10.2139/ssrn.4476855}
}
Licencia pública general GNU v3.0