Une équipe de recherche de l’Université de Pékin et de l’Université des sciences et technologies de Hong Kong a réalisé une percée remarquable en développant une méthode de formation innovante et en améliorant avec succès les performances d’un modèle expert médical de taille 8B au niveau GPT-4. Cette recherche introduit non seulement un nouveau concept de « écart de stabilité » pour expliquer le phénomène de fluctuations de performances des grands modèles de langage lors d'un pré-entraînement continu, mais plus important encore, ils proposent trois stratégies efficaces pour résoudre ce problème, et en open source. Modèle Llama-3-Physician-8B, apportant des progrès révolutionnaires dans le domaine de l'IA médicale. Les performances du modèle sur les tâches de réponse aux questions médicales dépassent même les modèles open source de même taille et sont proches du niveau GPT-4, ce qui indique le grand potentiel de l'IA médicale.
Premièrement, ils ont découvert qu'au cours du processus continu de pré-formation, les performances du modèle dans le domaine cible diminueraient d'abord puis augmenteraient, ce qui est aussi excitant qu'une montagne russe. Pour résoudre ce problème, ils ont proposé trois stratégies. La première consiste à effectuer plusieurs cycles de pré-entraînement sur des sous-ensembles de données de taille appropriée, ce qui peut restaurer les performances plus rapidement qu'un seul cycle de pré-entraînement sur un grand ensemble de données. La seconde consiste à sélectionner le sous-corpus de la plus haute qualité pour plusieurs cycles de pré-formation. Enfin, mélanger les données pour se rapprocher de la distribution des données pré-entraînées peut rendre le modèle plus stable.
Ces stratégies ont obtenu des résultats remarquables en matière de pré-formation continue et d'affinement des instructions dans le domaine médical, améliorant ainsi l'effet et réduisant la quantité de calculs. De plus, leur modèle open source Llama-3-Physician-8B est déjà disponible sur HuggingFace.
L’importance de cette recherche va bien au-delà. Ils ont également constaté qu'avec ces stratégies, le modèle OpenLLaMa n'avait besoin que d'être formé sur 5 milliards de données de haute qualité pendant 4 époques pour dépasser considérablement toutes les références en matière de tâches médicales. Cela améliore non seulement les performances, mais réduit également considérablement la consommation de ressources informatiques.
Ce qui est encore plus impressionnant, c'est que les performances de leur modèle Llama-3-Physician-8B-insturct sur les tâches de réponse aux questions médicales sont non seulement meilleures que celles des autres modèles open source de même taille, mais elles surpassent même le modèle GPT-3.5 à source fermée et sont proche du niveau GPT-4. C'est tout simplement une révolution dans le domaine médical.
Cette recherche nous apporte non seulement une nouvelle méthode de formation, mais nous permet également de constater l’énorme potentiel des grands modèles de langage dans le domaine médical. Grâce à une pré-formation continue et à un ajustement précis des instructions, nous pouvons faire en sorte que le modèle atteigne des performances plus élevées dans des domaines spécifiques tout en réduisant les coûts de calcul. Il s’agit sans aucun doute d’une énorme aubaine pour l’industrie médicale.
Cette étude nous rappelle également que la formation de grands modèles de langage ne se fait pas du jour au lendemain, mais nécessite une optimisation et un ajustement continus. En introduisant le concept d'« écart de stabilité », nous pouvons mieux comprendre et résoudre les problèmes de formation des modèles, permettant ainsi au modèle de jouer un rôle plus important dans des domaines spécifiques. Il ne s’agit pas seulement d’une avancée technologique, mais aussi d’une profonde connaissance de l’industrie médicale.
Lien papier : https://arxiv.org/abs/2406.14833
Adresse open source : https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
Ce résultat de recherche indique l’orientation du développement du domaine de l’IA médicale et fournit également une expérience précieuse pour la formation modèle dans d’autres domaines. À l'avenir, avec les progrès continus de la technologie, nous pouvons nous attendre à ce que l'application de grands modèles de langage dans le domaine médical soit plus étendue et plus approfondie, apportant ainsi une plus grande contribution à la santé humaine.