谷歌Gemini大型語言模型(LLM)在短短六個月內展現出驚人的潛力,尤其在健康領域表現突出。其衍生模型PH-LLM,專為處理穿戴式裝置數據而設計,在睡眠和健身建議方面甚至超越了經驗豐富的專家。本文將深入探討PH-LLM的出色表現、其限制以及未來發展方向。
谷歌的Gemini 模型誕生僅六個月,已經在安全、編碼、調試等領域展現出令人矚目的能力,當然,它也展現了嚴重的限制。不過,這個大型語言模型(LLM) 在睡眠和健身建議方面勝過人類。谷歌的研究人員推出了個人健康大語言模型(PH-LLM),這是經過精細調整的Gemini 版本,可以理解和推理來自可穿戴設備(如智慧手錶和心率監測器)的時間序列個人健康數據。在他們的實驗中,該模型對問題的回答和預測明顯優於在健康和健身領域擁有多年經驗的專家。
穿戴式科技可以幫助人們監測他們的健康狀況,並在最理想的情況下進行有意義的改變。這些設備提供了一個“豐富且長期的數據來源”,可以從運動和飲食日誌、心情日記,甚至有時甚至包括社交媒體活動等輸入中“被動和持續地獲取”。然而,它們捕獲的關於睡眠、體力活動、心臟代謝健康和壓力的數據很少被納入「零散性的」 臨床環境中。研究人員推測,這很可能是因為數據被捕獲時缺乏上下文,並且需要大量計算來儲存和分析。此外,這些數據的解釋可能也頗具難度。
然而,Google的研究人員在訓練PH-LLM 模型以提供建議、回答專業考試問題以及預測自我報告的睡眠幹擾和睡眠障礙結果方面取得了突破。該模型被給予多項選擇題,研究人員也使用了「思維鏈」(模仿人類推理)和「零- shot」 方法(識別之前未遇到的對象和概念)。
令人印象深刻的是,PH-LLM 在睡眠考試中取得了79% 的成績,在健身考試中取得了88% 的成績,這兩項成績均超過了一個樣本人類專家群體的平均成績,包括五名專業運動訓練師(平均經驗13.8年)和五名睡眠醫學專家(平均經驗25年)。人類專家在健身和睡眠的平均成績分別為71% 和76%。
研究人員指出:“雖然在個人健康領域還需要進一步的開發和評估工作,但這些結果證明了Gemini 模型的廣泛知識基礎和能力。”
為了實現這些結果,研究人員首先創建和整理了三個資料集,用於測試來自穿戴式裝置的個人化見解和建議、專業領域知識以及對自我報告的睡眠品質的預測。他們與領域專家合作,創建了857個案例研究,代表了睡眠和健身領域的真實場景。睡眠場景使用個別指標來識別潛在的因素,並提供個人化建議以幫助改善睡眠品質。健身任務使用來自訓練、睡眠、健康指標和使用者回饋的訊息,為某一天的身體活動強度製定建議。
兩類案例研究都包含了穿戴式感測器數據,其中包含了睡眠數據長達29天,健身數據長達30天以上,以及人口統計資料(年齡和性別)和專家分析。
儘管研究人員注意到PH-LLM 只是一個開始,就像任何新興技術一樣,它還有一些問題需要解決。例如,模型產生的回答並不總是一致的,在案例研究中存在“顯著差異” 的虛構,並且LLM 有時在回答上顯得保守或謹慎。在健身案例研究中,該模型對過度訓練非常敏感,而在一個案例中,人類專家注意到它未能確定睡眠不足可能導致傷害的潛在原因。此外,案例研究廣泛涵蓋了各種人口統計數據和相對活躍的個體,因此可能不完全代表人群,也無法解決更廣泛的睡眠和健身問題。
總而言之,PH-LLM 在個人健康領域的應用展現了巨大的潛力,但仍需進一步完善。未來研究應關注其一致性、穩健性和對更廣泛人群的適用性,以確保其安全有效地應用於實際場景中。