Un nuevo estudio de la Facultad de Medicina de Harvard y la Universidad de Stanford muestra que el sistema de inteligencia artificial o1-preview de OpenAI funciona bien en el diagnóstico de casos médicos complejos y puede incluso superar a los médicos humanos. El estudio probó exhaustivamente o1-preview y los resultados fueron impresionantes, con una precisión y capacidades de razonamiento médico que superaron significativamente a los modelos anteriores y a médicos y residentes médicos experimentados. Esta investigación proporciona una nueva dirección para la aplicación de la inteligencia artificial en el campo médico y también desencadena debates sobre las cuestiones éticas y prácticas de la aplicación de la inteligencia artificial en la práctica médica.
El sistema de inteligencia artificial o1-preview de OpenAI puede ser mejor que los médicos humanos a la hora de diagnosticar casos médicos complejos, sugiere un nuevo estudio. Equipos de investigación de la Facultad de Medicina de Harvard y la Universidad de Stanford realizaron pruebas de diagnóstico médico integrales en o1-preview y los resultados mostraron que el sistema ha mejorado significativamente en comparación con versiones anteriores.
Según los resultados del estudio, o1-preview logró una tasa de diagnóstico correcto del 78,3% entre todos los casos analizados. En una comparación directa de 70 casos específicos, la tasa de diagnóstico preciso del sistema alcanzó el 88,6%, superando significativamente el 72,9% de su predecesor GPT-4. En términos de razonamiento médico, el rendimiento de o1-preview es igualmente impresionante. Utilizando la escala R-IDEA, un estándar de evaluación de la calidad del razonamiento médico, el sistema de inteligencia artificial recibió una puntuación perfecta de 78 de 80 casos. En comparación, los médicos experimentados lograron puntuaciones perfectas en sólo 28 casos, y los médicos residentes lograron puntuaciones perfectas en sólo 16 casos.
Los investigadores también reconocen que o1-preview puede haber incluido algunos casos de prueba en los datos de entrenamiento. Sin embargo, cuando probaron el sistema en casos nuevos, el rendimiento sólo disminuyó ligeramente. El Dr. Adam Rodman, uno de los autores del estudio, enfatizó que aunque se trata de un estudio de referencia, los resultados tienen implicaciones importantes para la práctica médica.
o1-preview funcionó particularmente bien cuando se trataba de casos de gestión complejos especialmente diseñados por 25 expertos. "Los seres humanos son impotentes ante estos problemas, pero el rendimiento de O1 es sorprendente", explicó Rodman. En estos casos complejos, o1-preview logró una puntuación del 86 %, mientras que los médicos que utilizaron GPT-4 solo lograron el 41 % y las herramientas tradicionales solo lograron el 34 %.
Sin embargo, o1-preview no está exento de defectos. En términos de evaluación de probabilidad, el rendimiento del sistema no mejoró significativamente. Por ejemplo, al evaluar la probabilidad de neumonía, o1-preview arrojó una estimación del 70%, lo que está muy por encima del rango científico de 25%-42%. Los investigadores descubrieron que o1-preview funcionó bien en tareas que requerían pensamiento crítico, pero no cumplió con desafíos más abstractos, como la estimación de probabilidades.
Además, o1-preview a menudo proporciona respuestas detalladas, lo que puede haber mejorado su calificación. Sin embargo, el estudio solo se centró en o1-preview trabajando solo y no evaluó su efecto en colaboración con médicos. Algunos críticos señalan que las pruebas de diagnóstico sugeridas por o1-preview suelen ser costosas y poco prácticas.
Aunque OpenAI ha lanzado nuevas versiones de o1 y o3 y ha tenido un buen desempeño en tareas de inferencia complejas, estos modelos más potentes aún no logran resolver los problemas de aplicación práctica y costos planteados por los críticos. Rodman pidió a los investigadores que necesiten mejores formas de evaluar los sistemas de IA médica para captar la complejidad de las decisiones médicas de la vida real. Enfatizó que esta investigación no pretende reemplazar a los médicos y que el tratamiento médico real aún requiere participación humana.
Documento: https://arxiv.org/abs/2412.10849
Destacar:
o1-preview superó a los médicos en tasa de diagnóstico, alcanzando una tasa de precisión del 88,6%.
En términos de razonamiento médico, o1-preview logró 78 puntuaciones perfectas en 80 casos, superando con creces el desempeño de los médicos.
A pesar de su excelente rendimiento, aún es necesario abordar el alto costo de o1-preview y las recomendaciones de prueba poco realistas en aplicaciones prácticas.
En definitiva, este estudio demuestra el gran potencial de la inteligencia artificial en el campo del diagnóstico médico, pero también nos recuerda que debemos ser cautelosos con la aplicación de la IA en la práctica médica y prestar más atención a sus limitaciones y riesgos potenciales. Se necesitan investigaciones y mejoras en el futuro para garantizar que la IA pueda ayudar de forma segura y eficaz al trabajo médico y servir mejor a la salud humana.