Une nouvelle étude de la Harvard Medical School et de l'Université de Stanford montre que le système d'intelligence artificielle o1-preview d'OpenAI fonctionne bien dans le diagnostic des cas médicaux complexes et pourrait même surpasser les médecins humains. L'étude a testé o1-preview de manière exhaustive et les résultats ont été impressionnants, avec des capacités de précision et de raisonnement médical surpassant considérablement les modèles précédents et surpassant les médecins et résidents en médecine expérimentés. Cette recherche ouvre une nouvelle direction pour l’application de l’intelligence artificielle dans le domaine médical et déclenche également des discussions sur les questions éthiques et pratiques liées à l’application de l’intelligence artificielle dans la pratique médicale.
Le système d'intelligence artificielle o1-preview d'OpenAI pourrait être meilleur que les médecins humains pour diagnostiquer des cas médicaux complexes, suggère une nouvelle étude. Des équipes de recherche de la Harvard Medical School et de l'Université de Stanford ont effectué des tests de diagnostic médical complets sur o1-preview, et les résultats ont montré que le système s'est considérablement amélioré par rapport aux versions précédentes.
Selon les résultats de l'étude, o1-preview a atteint un taux de diagnostic correct de 78,3 % parmi tous les cas testés. Lors d'une comparaison directe de 70 cas spécifiques, le taux de diagnostic précis du système a atteint 88,6 %, dépassant largement les 72,9 % de son prédécesseur GPT-4. En termes de raisonnement médical, les performances d'o1-preview sont tout aussi impressionnantes. Grâce à l'échelle R-IDEA, une norme d'évaluation de la qualité du raisonnement médical, le système d'IA a reçu un score parfait de 78 sur 80 cas. En comparaison, les médecins expérimentés ont obtenu des scores parfaits dans seulement 28 cas, et les résidents en médecine ont obtenu des scores parfaits dans seulement 16 cas.
Les chercheurs ont également reconnu que o1-preview aurait pu inclure certains cas de test dans les données de formation. Cependant, lorsqu’ils ont testé le système sur de nouveaux cas, les performances n’ont que légèrement diminué. Le Dr Adam Rodman, l'un des auteurs de l'étude, a souligné que même s'il s'agit d'une étude de référence, les résultats ont des implications importantes pour la pratique médicale.
o1-preview s'est particulièrement bien comporté lors du traitement de cas de gestion complexes spécialement conçus par 25 experts. "Les êtres humains sont impuissants face à ces problèmes, mais la performance d'O1 est incroyable", a expliqué Rodman. Dans ces cas complexes, o1-preview a obtenu un score de 86 %, tandis que les médecins utilisant GPT-4 n'ont obtenu que 41 % et les outils traditionnels n'ont atteint que 34 %.
Cependant, o1-preview n’est pas sans défauts. En termes d'évaluation de la probabilité, les performances du système ne se sont pas améliorées de manière significative. Par exemple, lors de l'évaluation de la probabilité de pneumonie, o1-preview a donné une estimation de 70 %, ce qui est bien au-dessus de la fourchette scientifique de 25 à 42 %. Les chercheurs ont constaté que o1-preview fonctionnait bien sur les tâches qui nécessitaient une pensée critique, mais ne répondait pas aux défis plus abstraits, tels que l'estimation des probabilités.
De plus, o1-preview fournit souvent des réponses détaillées, ce qui peut avoir amélioré sa note. Cependant, l’étude s’est uniquement concentrée sur l’o1-preview fonctionnant seul et n’a pas évalué son effet en collaboration avec des médecins. Certains critiques soulignent que les tests de diagnostic proposés par o1-preview sont souvent coûteux et peu pratiques.
Bien qu'OpenAI ait publié de nouvelles versions d'o1 et o3 et ait obtenu de bons résultats sur des tâches d'inférence complexes, ces modèles plus puissants ne parviennent toujours pas à résoudre les problèmes d'application pratique et de coût soulevés par les critiques. Rodman a appelé les chercheurs à trouver de meilleurs moyens d’évaluer les systèmes d’IA médicale afin de saisir la complexité des décisions médicales réelles. Il a souligné que cette recherche n’est pas destinée à remplacer les médecins et que le traitement médical réel nécessite toujours la participation humaine.
Article : https://arxiv.org/abs/2412.10849
Souligner:
o1-preview a surpassé les médecins en termes de taux de diagnostic, atteignant un taux de précision de 88,6 %.
En termes de raisonnement médical, o1-preview a obtenu 78 scores parfaits sur 80 cas, dépassant largement les performances des médecins.
Malgré ses excellentes performances, le coût élevé d'o1-preview et ses recommandations de tests irréalistes dans les applications pratiques doivent encore être pris en compte.
Dans l’ensemble, cette étude démontre le grand potentiel de l’intelligence artificielle dans le domaine du diagnostic médical, mais elle nous rappelle également que nous devons être prudents quant à l’application de l’IA dans la pratique médicale et prêter attention à ses limites et à ses risques potentiels. des recherches et des améliorations sont nécessaires à l’avenir pour garantir que l’IA puisse aider le travail médical de manière sûre et efficace et mieux servir la santé humaine.