La inteligencia artificial ha demostrado poderosas capacidades en diversos campos, pero sus limitaciones para abordar cuestiones históricas complejas se han vuelto cada vez más prominentes. Investigaciones recientes muestran que incluso los modelos lingüísticos más modernos a gran escala tienen deficiencias significativas en el manejo de detalles históricos matizados. Esta investigación plantea nuevos desafíos para la confiabilidad y el alcance de la aplicación de los modelos de IA existentes, y también proporciona una referencia valiosa para la dirección de mejora de los futuros modelos de IA.
Una nueva investigación muestra que, aunque la inteligencia artificial sobresale en áreas como la programación y la creación de contenidos, todavía se queda corta cuando se trata de abordar cuestiones históricas complejas. Un estudio reciente publicado en la conferencia NeurIPS mostró que incluso los modelos de lenguaje grande (LLM) más avanzados tienen dificultades para lograr resultados satisfactorios en las pruebas de conocimiento histórico.
El equipo de investigación desarrolló una prueba comparativa llamada Hist-LLM para evaluar tres modelos de lenguaje principales: GPT-4 de OpenAI, Llama de Meta y Gemini de Google. La prueba se realizó en la base de datos histórica global de Seshat y los resultados fueron decepcionantes: el GPT-4Turbo de mejor rendimiento tuvo una precisión de solo el 46%.
María Del Rio-Chanona, profesora asociada del University College de Londres, explicó: "Estos modelos funcionan bien cuando se trata de hechos históricos básicos, pero se quedan cortos cuando se trata de una investigación histórica en profundidad a nivel de doctorado". que la IA a menudo se equivoca en detalles, como el juicio erróneo sobre si el antiguo Egipto tenía ciertas tecnologías militares o ejércitos permanentes durante ciertos períodos.
Los investigadores creen que este pobre desempeño se debe a la tendencia de los modelos de IA a inferir de las narrativas históricas convencionales y a la dificultad para captar con precisión detalles históricos más finos. Además, el estudio encontró que estos modelos funcionaron peor cuando abordaron cuestiones históricas en regiones como el África subsahariana, lo que expuso posibles problemas de sesgo en los datos de entrenamiento.
Peter Turchin, jefe de investigación del Centro de Ciencias de la Complejidad (CSH), afirmó que este hallazgo muestra que en algunos campos profesionales la IA aún no es capaz de reemplazar a los expertos humanos. Sin embargo, el equipo de investigación sigue siendo optimista sobre las perspectivas de aplicación de la IA en la investigación histórica y están mejorando las pruebas comparativas para ayudar a desarrollar mejores modelos.
Los resultados de este estudio nos recuerdan que, aunque la tecnología de inteligencia artificial se está desarrollando rápidamente, en algunos campos específicos, el conocimiento y el juicio de los expertos humanos siguen siendo insustituibles. En el futuro, el modelo de IA deberá mejorarse aún más para que pueda manejar mejor información histórica compleja y proporcionar herramientas auxiliares más efectivas para la investigación histórica.