Google の Gemini Large Language Model (LLM) は、特に健康分野において、わずか 6 か月で驚くべき可能性を示しました。その派生モデルである PH-LLM は、ウェアラブル デバイス データを処理するように設計されており、睡眠とフィットネスに関する推奨事項に関しては、経験豊富な専門家をも上回ります。この記事では、PH-LLM の優れたパフォーマンス、その限界、および将来の開発の方向性について詳しく説明します。
Google の Gemini モデルは誕生からわずか 6 か月ですが、セキュリティ、コーディング、デバッグなどの分野ですでに優れた機能を実証しています。もちろん、重大な限界もあります。しかし、この大規模言語モデル (LLM) は、睡眠とフィットネスに関する推奨事項に関しては人間を上回りました。 Google の研究者らは、スマートウォッチや心拍数モニターなどのウェアラブル デバイスからの時系列の個人健康データを理解し、推論できる Gemini の微調整バージョンである Personal Health Large Language Model (PH-LLM) を発表しました。彼らの実験では、モデルは健康とフィットネスの分野で長年の経験を持つ専門家よりもはるかに優れた質問への回答と予測を行いました。
ウェアラブル テクノロジーは、人々が自分の健康状態を監視し、理想的には有意義な変化を起こすのに役立ちます。これらのデバイスは、運動や食事の記録、気分日記、さらにはソーシャル メディア活動などの入力から「受動的かつ継続的に取得」できる「豊富で長期的なデータ ソース」を提供します。しかし、睡眠、身体活動、心臓代謝の健康、ストレスに関して収集されたデータが「断片的な」臨床現場に統合されることはほとんどありません。研究者らは、これはおそらくデータがコンテキストを欠いた状態で取得され、保存と分析に大量のコンピューティングが必要なためであると推測しています。さらに、これらのデータの解釈は難しい場合があります。
しかし、Google の研究者たちは、PH-LLM モデルのトレーニングにおいて画期的な進歩を遂げ、推奨事項を提供し、専門的な試験の質問に答え、自己申告の睡眠障害と睡眠障害の結果を予測しました。モデルには多肢選択式の質問が与えられ、研究者らは「思考連鎖」(人間の推論を模倣する)と「ゼロショット」手法(これまで遭遇したことのない物体や概念を特定する)も使用した。
印象深いことに、PH-LLM は睡眠検査で 79%、フィットネス検査で 88% のスコアを達成しました。このスコアはどちらも、5 人のプロのアスレティック トレーナー (平均経験 13.8 年) を含む人間の専門家グループのサンプルの平均スコアを上回っていました。睡眠医学の専門家5名(平均経験25年)。フィットネスと睡眠に関する人間の専門家の平均スコアは、それぞれ 71% と 76% でした。
「個人の健康分野ではさらなる開発と評価作業が必要ですが、これらの結果はジェミニモデルの広範な知識ベースと機能を示しています」と研究者らは述べた。
これらの結果を達成するために、研究者らはまず 3 つのデータセットを作成して厳選し、ウェアラブル デバイス、分野の専門知識、自己申告による睡眠の質の予測からのパーソナライズされた洞察と推奨事項をテストしました。彼らは各分野の専門家と協力して、睡眠とフィットネスの分野における実際のシナリオを表す 857 件のケーススタディを作成しました。睡眠シーンは、個別の指標を使用して根本的な要因を特定し、睡眠の質の向上に役立つパーソナライズされた推奨事項を提供します。フィットネス タスクでは、トレーニング、睡眠、健康指標、ユーザー フィードバックからの情報を使用して、その日の身体活動の強度に関する推奨事項を作成します。
どちらのケーススタディにも、最大 29 日間の睡眠データと 30 日間を超えるフィットネス データを含むウェアラブル センサー データが含まれており、人口統計情報 (年齢と性別) と専門家による分析も含まれています。
研究者らは、他の新興技術と同様に、PH-LLM はまだ始まりにすぎないと指摘していますが、解決すべき問題がまだいくつかあります。たとえば、モデルによって生成される応答は常に一貫しているとは限らず、ケーススタディには「有意な差」というフィクションが存在し、LLM は応答において保守的または慎重に見えることがあります。フィットネスのケーススタディでは、モデルはオーバートレーニングに対して非常に敏感であり、あるケースでは人間の専門家が、睡眠不足による損傷の潜在的な原因を特定できなかったと指摘しました。さらに、ケーススタディはさまざまな人口統計と比較的活動的な個人を幅広くカバーしているため、人口を完全に代表していないか、より広範な睡眠とフィットネスの問題に取り組んでいない可能性があります。
結論として、個人の健康分野における PH-LLM の応用は大きな可能性を示していますが、まださらなる改善が必要です。将来の研究では、実際のシナリオでの安全かつ効果的な適用を保証するために、その一貫性、堅牢性、およびより幅広い人々への適用性に焦点を当てる必要があります。