Una nueva investigación de DeepMind muestra que los modelos de lenguaje grandes pueden superar a los anotadores humanos en la evaluación de hechos. El estudio utiliza el evaluador SAFE para la evaluación automatizada de la factualidad y realiza una evaluación comparativa exhaustiva con el conjunto de datos LongFact, lo que demuestra que el modelo grande funciona bien en el procesamiento de información factual extensa. Esta investigación no solo demuestra las ventajas de los modelos grandes en el campo de la evaluación factual, sino que, lo que es más importante, el equipo de DeepMind ha abierto completamente todos los resultados de la investigación, lo que proporciona recursos valiosos para la academia y la industria.
El último artículo de DeepMind revela las ventajas de los grandes modelos en la evaluación objetiva. Las investigaciones muestran que los modelos de lenguaje grandes pueden superar el rendimiento de los anotadores humanos y lograr una evaluación factual automática a través del evaluador SAFE. Los investigadores realizaron una evaluación comparativa exhaustiva utilizando el conjunto de datos LongFact y los resultados mostraron que el modelo grande funcionó bien en aspectos fácticos extensos. Todo el estudio destaca las ventajas de los modelos grandes en la evaluación fáctica y es totalmente de código abierto.Los resultados de esta investigación son alentadores. No sólo promueve el progreso de la inteligencia artificial en el campo de la evaluación factual, sino que también proporciona una nueva dirección para la futura aplicación de grandes modelos en la confiabilidad de la información. La estrategia de código abierto también allana el camino para una investigación y aplicación más amplias, y vale la pena esperar su desarrollo posterior.