Das Gemini Large Language Model (LLM) von Google hat in nur sechs Monaten ein erstaunliches Potenzial gezeigt, insbesondere im Gesundheitsbereich. Sein abgeleitetes Modell, PH-LLM, ist für die Verarbeitung von Daten tragbarer Geräte konzipiert und übertrifft selbst erfahrene Experten in Bezug auf Schlaf- und Fitnessempfehlungen. Dieser Artikel befasst sich mit der herausragenden Leistung von PH-LLM, seinen Einschränkungen und zukünftigen Entwicklungsrichtungen.
Das Gemini-Modell von Google ist erst sechs Monate alt und hat bereits beeindruckende Fähigkeiten in den Bereichen Sicherheit, Codierung, Debugging und anderen Bereichen gezeigt. Natürlich weist es auch gravierende Einschränkungen auf. Allerdings übertraf dieses große Sprachmodell (LLM) den Menschen in Bezug auf Schlaf- und Fitnessempfehlungen. Forscher bei Google haben das Personal Health Large Language Model (PH-LLM) vorgestellt, eine fein abgestimmte Version von Gemini, die persönliche Gesundheitsdaten in Zeitreihen von tragbaren Geräten wie Smartwatches und Herzfrequenzmessgeräten verstehen und daraus Schlüsse ziehen kann. In ihren Experimenten beantwortete und prognostizierte das Modell Fragen deutlich besser als Experten mit langjähriger Erfahrung im Gesundheits- und Fitnessbereich.
Tragbare Technologie kann Menschen dabei helfen, ihre Gesundheit zu überwachen und im Idealfall sinnvolle Veränderungen vorzunehmen. Die Geräte stellen eine „reiche und langfristige Datenquelle“ dar, die „passiv und kontinuierlich“ aus Eingaben wie Trainings- und Ernährungsprotokollen, Stimmungstagebüchern und manchmal sogar Social-Media-Aktivitäten erfasst werden kann. Allerdings werden die von ihnen erfassten Daten zu Schlaf, körperlicher Aktivität, kardiometabolischer Gesundheit und Stress selten in „stückweise“ klinische Umgebungen integriert. Die Forscher vermuten, dass dies wahrscheinlich daran liegt, dass die Daten ohne Kontext erfasst werden und viel Rechenaufwand für die Speicherung und Analyse erforderlich ist. Darüber hinaus kann die Interpretation dieser Daten schwierig sein.
Forscher bei Google haben jedoch Durchbrüche beim Training von PH-LLM-Modellen erzielt, um Empfehlungen abzugeben, professionelle Prüfungsfragen zu beantworten und selbst gemeldete Schlafstörungen und Schlafstörungsergebnisse vorherzusagen. Dem Modell wurden Multiple-Choice-Fragen gestellt, und die Forscher verwendeten außerdem „Thought Chaining“ (Nachahmung menschlichen Denkens) und „Zero-Shot“-Methoden (Identifizierung bisher unbekannter Objekte und Konzepte).
Beeindruckenderweise erzielte PH-LLM eine Punktzahl von 79 % bei der Schlafuntersuchung und 88 % bei der Fitnessprüfung, was beide Werte über der durchschnittlichen Punktzahl einer Stichprobe menschlicher Expertengruppen, darunter fünf professionelle Sporttrainer (durchschnittliche Erfahrung 13,8 Jahre), lag fünf Schlafmediziner (durchschnittliche Erfahrung 25 Jahre). Die durchschnittlichen Bewertungen menschlicher Experten zu Fitness und Schlaf lagen bei 71 % bzw. 76 %.
„Während im Bereich der persönlichen Gesundheit weitere Entwicklungs- und Bewertungsarbeiten erforderlich sind, zeigen diese Ergebnisse die breite Wissensbasis und die Fähigkeiten des Gemini-Modells“, stellten die Forscher fest.
Um diese Ergebnisse zu erzielen, erstellten und kuratierten die Forscher zunächst drei Datensätze, um personalisierte Erkenntnisse und Empfehlungen von tragbaren Geräten, Fachwissen und Vorhersagen zur selbstberichteten Schlafqualität zu testen. Sie arbeiteten mit Fachexperten zusammen, um 857 Fallstudien zu erstellen, die reale Szenarien in den Bereichen Schlaf und Fitness darstellen. Schlafszenen nutzen individuelle Messwerte, um zugrunde liegende Faktoren zu identifizieren und personalisierte Empfehlungen zur Verbesserung der Schlafqualität bereitzustellen. Fitnessaufgaben nutzen Informationen aus Training, Schlaf, Gesundheitsmetriken und Benutzerfeedback, um Empfehlungen für die Intensität körperlicher Aktivität für einen bestimmten Tag zu entwickeln.
Beide Fallstudien umfassen tragbare Sensordaten, darunter Schlafdaten für bis zu 29 Tage und Fitnessdaten für über 30 Tage, sowie demografische Informationen (Alter und Geschlecht) und Expertenanalysen.
Obwohl die Forscher anmerken, dass PH-LLM wie jede neue Technologie erst der Anfang ist, gibt es noch einige Probleme zu lösen. Beispielsweise sind die vom Modell generierten Antworten nicht immer konsistent, es besteht die Fiktion eines „signifikanten Unterschieds“ in den Fallstudien und das LLM erscheint in seinen Antworten manchmal konservativ oder vorsichtig. In der Fitness-Fallstudie reagierte das Modell sehr empfindlich auf Übertraining, und in einem Fall stellten menschliche Experten fest, dass es mögliche Ursachen für Verletzungen durch Schlafentzug nicht identifizieren konnte. Darüber hinaus decken die Fallstudien im Großen und Ganzen eine Vielzahl von Bevölkerungsgruppen und relativ aktiven Personen ab und sind daher möglicherweise nicht vollständig repräsentativ für die Bevölkerung oder befassen sich nicht mit allgemeineren Schlaf- und Fitnessproblemen.
Zusammenfassend lässt sich sagen, dass die Anwendung von PH-LLM im Bereich der persönlichen Gesundheit großes Potenzial aufweist, aber noch weiterer Verbesserung bedarf. Zukünftige Forschungen sollten sich auf ihre Konsistenz, Robustheit und Anwendbarkeit auf eine breitere Bevölkerung konzentrieren, um ihre sichere und effektive Anwendung in tatsächlichen Szenarien sicherzustellen.