Des recherches conjointes menées par des institutions de premier plan telles que l’Université Harvard et l’Université Stanford montrent que le modèle o1-preview d’OpenAI a démontré des capacités étonnantes dans les tâches de raisonnement médical, surpassant même les médecins humains. Cette étude a mené une évaluation complète du modèle o1-preview, couvrant de multiples aspects tels que la génération de diagnostics différentiels, l'affichage du processus de raisonnement diagnostique, le diagnostic différentiel de triage, le raisonnement probabiliste et le raisonnement de gestion, et l'a comparé aux médecins humains et aux premiers langages à grande échelle. modèles. Les résultats de la recherche sont accrocheurs, apportant de nouvelles avancées dans l’application de l’intelligence artificielle dans le domaine médical et ouvrant également la voie à l’orientation future du développement de l’intelligence artificielle médicale.
L'application de l'intelligence artificielle dans le domaine médical a une fois de plus marqué le début d'une avancée majeure ! Une étude menée conjointement par l'Université Harvard, l'Université Stanford et d'autres institutions de premier plan a montré que le modèle o1-preview d'OpenAI montrait des capacités étonnantes dans plusieurs tâches de raisonnement médical, dépassant même médecins humains. Cette étude a non seulement évalué les performances du modèle lors de tests médicaux de référence à choix multiples, mais s'est également concentrée sur ses capacités de diagnostic et de gestion dans des scénarios cliniques réels simulés. Les résultats sont impressionnants.
Les chercheurs ont mené une évaluation complète du modèle o1-preview à travers cinq expériences, notamment la génération de diagnostics différentiels, l'affichage du processus de raisonnement diagnostique, le diagnostic différentiel de triage, le raisonnement probabiliste et le raisonnement de gestion. Les expériences ont été évaluées par des experts médicaux à l'aide de méthodes psychométriques validées et ont été conçues pour comparer les performances d'o1-preview à des contrôles humains précédents et à des références antérieures de grands modèles de langage. Les résultats montrent que o1-preview apporte des améliorations significatives dans la génération de diagnostics différentiels et dans la qualité du raisonnement diagnostique et de gestion.
En évaluant la capacité de o1-preview à générer des diagnostics différentiels, les chercheurs ont utilisé des cas du Clinical Pathology Colloquium (CPC) publiés dans le New England Journal of Medicine (NEJM). Les résultats ont montré que le diagnostic différentiel donné par le modèle incluait le bon diagnostic dans 78,3 % des cas, et dans 52 % des cas, le premier diagnostic était le bon diagnostic. Plus frappant encore, o1-preview a donné des diagnostics précis ou très proches dans 88,6 % des cas, contre 72,9 % des mêmes cas pour le modèle GPT-4 précédent. En outre, o1-preview a également donné de bons résultats dans la sélection du prochain test de diagnostic, en sélectionnant le test correct dans 87,5 % des cas et en sélectionnant un schéma de tests jugé utile dans 11 % des cas.
Pour évaluer davantage les capacités de raisonnement clinique d'o1-preview, les chercheurs ont utilisé 20 cas cliniques du cours NEJM Healer. Les résultats ont montré que o1-preview fonctionnait nettement mieux que GPT-4, les médecins traitants et les résidents dans ces cas, obtenant des scores R-IDEA parfaits dans 78/80 cas. Le score R-IDEA est une échelle de 10 points utilisée pour évaluer la qualité de la documentation du raisonnement clinique. De plus, les chercheurs ont évalué les capacités de gestion et de raisonnement diagnostique d'o1-preview à travers le cas de gestion « Grey Matters » et le cas de diagnostic « Landmark ». Dans le cas « Grey Matters », o1-preview a obtenu des résultats nettement supérieurs à GPT-4, aux médecins utilisant GPT-4 et aux médecins utilisant des ressources traditionnelles. Dans le cas « Landmark », o1-preview fonctionne à égalité avec GPT-4, mais mieux que les médecins utilisant GPT-4 ou des ressources traditionnelles.
Cependant, l'étude a également révélé que les performances de o1-preview en matière de raisonnement probabiliste étaient similaires à celles du modèle précédent, sans amélioration significative. Dans certains cas, le modèle était inférieur à celui des humains pour prédire les probabilités de maladie. Les chercheurs ont également noté qu'une limitation de o1-preview est sa tendance à être verbeuse, ce qui peut avoir contribué à son score dans certaines expériences. En outre, cette étude s'est principalement concentrée sur les performances du modèle et n'a pas impliqué d'interaction homme-machine. Des recherches plus approfondies sur la façon dont o1-preview améliore l'interaction homme-machine sont donc nécessaires à l'avenir pour développer des outils d'aide à la décision clinique plus efficaces.
Néanmoins, cette étude montre que o1-preview fonctionne bien dans les tâches qui nécessitent une pensée critique complexe, telles que le diagnostic et la gestion. Les chercheurs soulignent que les critères de raisonnement diagnostique dans le domaine médical deviennent rapidement saturés, ce qui nécessite le développement de méthodes d'évaluation plus exigeantes et plus réalistes. Ils appellent à des essais de ces technologies dans des contextes cliniques réels et à une préparation à l’innovation collaborative entre cliniciens et intelligence artificielle. En outre, un cadre de surveillance solide doit être établi pour surveiller la mise en œuvre généralisée des systèmes d’aide à la décision clinique par l’IA.
Adresse papier : https://www.arxiv.org/pdf/2412.10849
Dans l’ensemble, cette étude fournit des preuves solides de l’application de l’intelligence artificielle dans le domaine médical et indique également l’orientation des recherches futures. Les excellentes performances du modèle o1-preview sont passionnantes, mais ses limites nécessitent également un examen attentif et la garantie de sa sécurité et de sa fiabilité dans les applications cliniques. À l’avenir, la collaboration homme-machine deviendra une tendance importante dans le domaine médical.