El editor de Downcodes se enteró de que las últimas investigaciones de OpenAI muestran que incluso con el rápido avance de la tecnología de IA, la precisión de los modelos de lenguaje más avanzados actuales para responder preguntas fácticas sigue siendo preocupante. Este estudio utilizó el punto de referencia SimpleQA de OpenAI. Los resultados de las pruebas mostraron que la precisión incluso de los mejores modelos de OpenAI fue mucho menor de lo esperado, lo que provocó un reexamen de las capacidades de adquisición de conocimiento de los modelos de IA.
El estudio utilizó la prueba de referencia SimpleQA de OpenAI. Esta prueba contiene 4326 preguntas, que cubren múltiples campos como ciencia, política y arte.
Después de la verificación por parte de dos revisores independientes, los resultados muestran que la precisión de la vista previa del mejor modelo o1 de OpenAI es solo del 42,7%, mientras que GPT-4o es ligeramente inferior, solo del 38,2%. En cuanto al GPT-4o-mini más pequeño, la precisión es incluso de sólo el 8,6%. En comparación, el modelo Claude de Anthropic tuvo un rendimiento aún peor, ya que el soneto Claude-3.5 logró una precisión de sólo el 28,9%.
La clave de esta investigación radica en el diseño de la prueba, no sólo para probar el rendimiento de la IA, sino también para concienciar a todos sobre las limitaciones de los modelos de IA en la adquisición de conocimiento. Los investigadores enfatizan que cuando los usuarios utilizan estos modelos, deben tratarlos como herramientas de procesamiento de información en lugar de fuentes de conocimiento completamente dependientes. Para obtener respuestas más precisas, es mejor proporcionar a la IA datos fiables en lugar de depender únicamente de su conocimiento incorporado.
Vale la pena señalar que los modelos de IA a menudo tienen estimaciones demasiado optimistas de sus capacidades. Los investigadores descubrieron que cuando se pedía a estos modelos que calificaran la confianza en sus respuestas, a menudo daban puntuaciones de precisión infladas. En las pruebas en las que se respondieron repetidamente las mismas preguntas, incluso si los modelos dieron la misma respuesta varias veces, su tasa de éxito real fue aún menor que su precisión autoevaluada. Esto es consistente con la crítica externa de que los modelos lingüísticos a menudo producen respuestas ridículas pero parecen seguras.
Los investigadores creen que el sistema de inteligencia artificial actual tiene lagunas obvias en la precisión de los hechos y necesita mejoras urgentes. También plantearon la cuestión abierta de si el desempeño de una IA al responder preguntas breves sobre hechos predice su desempeño al procesar respuestas más largas y complejas. Para respaldar el desarrollo de modelos de lenguaje más confiables, OpenAI ha publicado públicamente los datos de referencia de SimpleQA en Github.
Esta investigación advierte sobre la confiabilidad de los modelos de IA y señala la dirección para futuras mejoras. Necesitamos utilizar las herramientas de IA con más cuidado y esperar mayores avances en la precisión objetiva de los modelos de IA en el futuro. Los datos de referencia SimpleQA publicados públicamente por OpenAI ayudarán a promover el desarrollo de todo el campo de la IA.