Le Gemini Large Language Model (LLM) de Google a montré un potentiel incroyable en seulement six mois, notamment dans le domaine de la santé. Son modèle dérivé, PH-LLM, est conçu pour traiter les données des appareils portables et surpasse même les experts chevronnés en matière de recommandations en matière de sommeil et de forme physique. Cet article examinera les performances exceptionnelles de PH-LLM, ses limites et les orientations de développement futures.
Le modèle Gemini de Google n'a que six mois et a déjà démontré des capacités impressionnantes en matière de sécurité, de codage, de débogage et dans d'autres domaines. Bien entendu, il a également montré de sérieuses limites. Cependant, ce grand modèle de langage (LLM) a surpassé les humains en termes de recommandations en matière de sommeil et de forme physique. Des chercheurs de Google ont dévoilé le Personal Health Large Language Model (PH-LLM), une version finement optimisée de Gemini qui peut comprendre et raisonner sur des séries chronologiques de données de santé personnelles provenant d'appareils portables tels que des montres intelligentes et des moniteurs de fréquence cardiaque. Dans leurs expériences, le modèle a répondu et prédit les questions de manière significativement meilleure que les experts ayant des années d'expérience dans le domaine de la santé et du fitness.
La technologie portable peut aider les gens à surveiller leur santé et, idéalement, à apporter des changements significatifs. Les appareils fournissent une « source de données riche et à long terme » qui peut être « acquise de manière passive et continue » à partir d’entrées telles que des journaux d’exercices et de nourriture, des journaux d’humeur et parfois même des activités sur les réseaux sociaux. Cependant, les données qu’ils capturent sur le sommeil, l’activité physique, la santé cardiométabolique et le stress sont rarement intégrées dans des contextes cliniques « fragmentaires ». Les chercheurs supposent que cela est probablement dû au fait que les données sont capturées sans contexte et nécessitent beaucoup de calcul pour être stockées et analysées. De plus, l’interprétation de ces données peut être difficile.
Cependant, des chercheurs de Google ont réalisé des percées dans la formation des modèles PH-LLM pour fournir des recommandations, répondre aux questions d'examen professionnel et prédire les troubles du sommeil et les résultats des troubles du sommeil autodéclarés. Le modèle a été soumis à des questions à choix multiples et les chercheurs ont également utilisé des méthodes de « chaînage de pensées » (imitant le raisonnement humain) et de « tir zéro » (identifiant des objets et des concepts auparavant inédits).
De manière impressionnante, PH-LLM a obtenu un score de 79 % à l'examen du sommeil et de 88 % à l'examen de condition physique, tous deux dépassant le score moyen d'un échantillon de groupes d'experts humains, dont cinq entraîneurs sportifs professionnels (expérience moyenne de 13,8 ans) et cinq spécialistes en médecine du sommeil (expérience moyenne 25 ans). Les scores moyens des experts humains en matière de condition physique et de sommeil étaient respectivement de 71 % et 76 %.
"Bien que des travaux de développement et d'évaluation supplémentaires soient nécessaires dans le domaine de la santé personnelle, ces résultats démontrent la vaste base de connaissances et les capacités du modèle Gemini", ont noté les chercheurs.
Pour obtenir ces résultats, les chercheurs ont d’abord créé et organisé trois ensembles de données pour tester des informations et des recommandations personnalisées provenant d’appareils portables, une expertise dans le domaine et des prédictions sur la qualité du sommeil auto-déclarée. Ils ont travaillé avec des experts du domaine pour créer 857 études de cas représentant des scénarios réels dans les domaines du sommeil et du fitness. Les scènes de sommeil utilisent des mesures individuelles pour identifier les facteurs sous-jacents et fournir des recommandations personnalisées pour aider à améliorer la qualité du sommeil. Les tâches de remise en forme utilisent des informations provenant de l'entraînement, du sommeil, des mesures de santé et des commentaires des utilisateurs pour élaborer des recommandations sur l'intensité de l'activité physique pour une journée donnée.
Les deux études de cas incluent des données de capteurs portables, notamment des données de sommeil jusqu'à 29 jours et des données de condition physique pendant plus de 30 jours, ainsi que des informations démographiques (âge et sexe) et des analyses d'experts.
Bien que les chercheurs notent que le PH-LLM n’est qu’un début, comme toute technologie émergente, il lui reste encore quelques problèmes à résoudre. Par exemple, les réponses générées par le modèle ne sont pas toujours cohérentes, il existe une fiction de « différence significative » dans les études de cas, et le LLM apparaît parfois conservateur ou prudent dans ses réponses. Dans l’étude de cas sur la condition physique, le modèle était très sensible au surentraînement et, dans un cas, les experts humains ont noté qu’il n’avait pas réussi à identifier les causes potentielles de blessures liées au manque de sommeil. De plus, les études de cas couvrent largement une variété de données démographiques et d'individus relativement actifs et peuvent donc ne pas être entièrement représentatives de la population ou aborder des problèmes plus larges de sommeil et de forme physique.
En conclusion, l’application du PH-LLM dans le domaine de la santé personnelle présente un grand potentiel mais doit encore être améliorée. Les recherches futures devraient se concentrer sur sa cohérence, sa robustesse et son applicabilité à une population plus large afin de garantir son application sûre et efficace dans des scénarios réels.