L'équipe de recherche de l'Université chinoise de Hong Kong (Shenzhen) et du Shenzhen Big Data Research Institute ont récemment lancé un modèle de langue à grande échelle médicale appelée Huatuogpt-O1. Une étape importante. Conçu pour un raisonnement complexe dans le domaine médical, le modèle vise à améliorer la précision et la fiabilité du diagnostic médical et de la prise de décision. Contrairement au LLM qui s'est concentré sur le raisonnement mathématique dans le passé, Huatuogpt-O1 se concentre sur le domaine spécial des soins médicaux et a ouvert une nouvelle voie pour le développement de l'IA médicale en simulant le processus de réflexion rigoureux des médecins dans le travail réel.
Le principal défi auquel l'équipe de recherche est confrontée dans le processus de développement est que le processus de raisonnement dans le domaine médical manque souvent d'étapes claires et est difficile à vérifier. Pour résoudre ce problème, ils ont sélectionné 40 000 questions difficiles avec des réponses correctes uniques et objectives de la banque de questions d'examen médical et les ont transformées en questions ouvertes pour construire un ensemble vérifiable de questions médicales. Ces questions nécessitent non seulement le modèle pour effectuer un raisonnement approfondi, mais vérifie également l'exactitude du processus d'inférence à travers les bonnes ou les mauvaises réponses, fournissant ainsi un support de données fiable pour la formation du modèle.
Afin d'améliorer la capacité de raisonnement du modèle, l'équipe de recherche a adopté une méthode de formation en deux étapes. Dans la première phase, ils utilisent la rétroaction du validateur (correct ou mal) pour guider le modèle pour les recherches basées sur des politiques, générant des trajectoires d'inférence complexes. Le modèle initialise d'abord une chaîne de réflexion (COT). Ces trajectoires de raisonnement réussies sont ensuite utilisées pour affiner le LLM pour lui donner la capacité de raisonnement complexe de la réflexion itérative. Dans la deuxième phase, l'équipe de recherche a utilisé les récompenses clairsemées fournies par le validateur pour améliorer encore les capacités de raisonnement complexes du modèle à travers des algorithmes d'apprentissage par renforcement (RL).
Les résultats expérimentaux montrent que cette méthode de formation en deux étapes a obtenu des résultats significatifs. En utilisant seulement 40 000 questions vérifiables, un modèle avec 8 milliards de paramètres a atteint une augmentation de 8,5 points des repères médicaux. Un modèle de paramètres de 70 milliards dépasse également les autres LLMs Open Source General and Medical spécifiques à plusieurs références médicales. Ces résultats confirment non seulement l'efficacité du raisonnement complexe dans la résolution des problèmes médicaux, mais démontrent également le rôle important de l'apprentissage du renforcement dans l'amélioration des performances du modèle.
Huatuogpt-O1 est innovant en ce qu'il utilise pour la première fois des problèmes médicaux et des validateurs médicaux vérifiables pour améliorer les capacités de raisonnement complexe médical de LLM. Avec cette approche, le modèle peut penser profondément comme un médecin et effectuer l'auto-examen et la correction avant de donner une réponse. Cela améliore non seulement le potentiel d'application du modèle dans le domaine médical, mais fournit également une référence pour améliorer la capacité de raisonnement dans d'autres domaines professionnels.
Pour vérifier davantage la fiabilité du modèle, les chercheurs ont utilisé GPT-4O comme validateur, et les résultats ont montré que son taux de précision atteignait 96,5% dans la première phase et 94,5% dans la deuxième phase. Dans le même temps, ils ont également confirmé que les validateurs basés sur LLM sont plus fiables que les méthodes de correspondance précise traditionnelles. De plus, les chercheurs ont appliqué la méthode au domaine médical chinois et ont également obtenu des résultats remarquables, démontrant l'adaptabilité de la méthode dans différents domaines et environnements linguistiques.
Dans l'ensemble, l'émergence de Huatuogpt-O1 marque des progrès significatifs dans l'IA médicale dans un raisonnement complexe. Il fournit non seulement des outils plus fiables pour le diagnostic médical et la prise de décision, mais fournit également de nouvelles idées pour l'application future de l'IA dans d'autres domaines professionnels. Bien que le modèle soit toujours au stade de la recherche et ne puisse pas être appliqué directement à la pratique clinique, son énorme potentiel a attiré une attention généralisée et devrait jouer un plus grand rôle dans le domaine médical à l'avenir.
Adresse papier: https://arxiv.org/pdf/2412.18925