Recientemente, el Instituto Austriaco de Ciencias de la Complejidad (CSH) evaluó el conocimiento histórico de tres modelos de lenguaje a gran escala (LLM), GPT-4, Llama y Gemini, y los resultados fueron sorprendentes. El equipo de investigación utilizó una herramienta de prueba de referencia llamada "Hist-LLM" para probar la precisión del modelo al responder preguntas históricas basadas en la base de datos histórica global de Seshat. Los resultados de la investigación se anunciaron en la Conferencia de Inteligencia Artificial NeurIPS y han provocado que la gente piense profundamente sobre las capacidades de aplicación de los LLM en campos complejos.
Para evaluar el desempeño de estos modelos en el conocimiento histórico, los investigadores desarrollaron una herramienta de referencia llamada "Hist-LLM". Esta herramienta se basa en la base de datos histórica global de Seshat y está diseñada para verificar la precisión de las respuestas de la IA a preguntas históricas. Los resultados de la investigación se anunciaron en la conocida conferencia sobre inteligencia artificial NeurIPS. Los datos mostraron que la precisión del GPT-4Turbo con mejor rendimiento fue de sólo el 46%. Este resultado muestra que el rendimiento es sólo ligeramente mejor que el de las adivinanzas aleatorias.
María del Río-Chanona, profesora asociada de informática en el University College de Londres, dijo: "Si bien los modelos de lenguaje grandes son impresionantes, su profundidad de comprensión del conocimiento histórico de alto nivel se queda corta. Son buenos manejando hechos simples, pero tienen dificultades con otros más complejos, por ejemplo, cuando se le preguntó si existían armaduras de escamas en el antiguo Egipto en un momento específico, GPT-4Turbo respondió incorrectamente "sí", cuando en realidad esta tecnología no apareció hasta hace 1.500 años. Además, cuando los investigadores preguntaron si el antiguo Egipto tenía un ejército permanente profesional, GPT-4 también respondió incorrectamente "sí" cuando la respuesta real fue no.
El estudio también reveló que el modelo tuvo un desempeño deficiente en ciertas regiones, como el África subsahariana, lo que sugiere que sus datos de entrenamiento pueden estar sesgados. El líder del estudio, Peter Turchin, señaló que estos resultados reflejan que en algunas áreas los LLM aún no pueden reemplazar a los humanos.
Destacar:
- GPT-4Turbo obtuvo un desempeño deficiente en el examen de historia avanzado con una precisión de solo el 46%.
- Las investigaciones muestran que los grandes modelos lingüísticos siguen siendo insuficientes para comprender el conocimiento histórico complejo.
- El equipo de investigación espera mejorar el potencial de aplicación del modelo en la investigación histórica mejorando las herramientas de prueba.
Los resultados de este estudio nos recuerdan que, aunque los modelos lingüísticos a gran escala han logrado avances significativos en muchos aspectos, todavía tienen limitaciones a la hora de abordar problemas complejos que requieren una comprensión profunda y un análisis meticuloso. La investigación futura debe centrarse en cómo mejorar los datos de entrenamiento y los algoritmos del modelo para mejorar sus capacidades de aplicación en diversos campos y, en última instancia, lograr una verdadera inteligencia artificial general.