Google의 Gemini LLM(대형 언어 모델)은 단 6개월 만에 특히 건강 분야에서 놀라운 잠재력을 보여주었습니다. 파생 모델인 PH-LLM은 웨어러블 장치 데이터를 처리하도록 설계되었으며 수면 및 피트니스 추천 분야에서 노련한 전문가보다 뛰어난 성능을 발휘합니다. 이 기사에서는 PH-LLM의 뛰어난 성능과 한계, 향후 개발 방향에 대해 살펴보겠습니다.
Google의 Gemini 모델은 출시된 지 6개월밖에 되지 않았으며 보안, 코딩, 디버깅 및 기타 분야에서 이미 인상적인 성능을 보여주었습니다. 물론 심각한 한계도 나타났습니다. 그러나 이 LLM(대형 언어 모델)은 수면 및 피트니스 권장 사항에서 인간보다 나은 성능을 보였습니다. Google 연구원들은 스마트워치 및 심박수 모니터와 같은 웨어러블 기기의 시계열 개인 건강 데이터를 이해하고 추론할 수 있는 정교하게 조정된 Gemini 버전인 PH-LLM(개인 건강 대형 언어 모델)을 공개했습니다. 실험에서 모델은 건강 및 피트니스 분야에서 수년간의 경험을 가진 전문가보다 훨씬 더 나은 질문에 답하고 예측했습니다.
웨어러블 기술은 사람들이 자신의 건강을 모니터링하고 이상적으로는 의미 있는 변화를 이루는 데 도움이 될 수 있습니다. 이 장치는 운동 및 음식 기록, 기분 일기, 때로는 소셜 미디어 활동과 같은 입력으로부터 "수동적이고 지속적으로 획득"할 수 있는 "풍부하고 장기적인 데이터 소스"를 제공합니다. 그러나 수면, 신체 활동, 심장 대사 건강 및 스트레스에 대해 수집한 데이터는 "단편적인" 임상 설정에 통합되는 경우가 거의 없습니다. 연구원들은 데이터가 맥락 없이 캡처되고 저장하고 분석하는 데 많은 컴퓨팅이 필요하기 때문에 이것이 가능하다고 추측합니다. 게다가 이러한 데이터를 해석하는 것도 어려울 수 있습니다.
그러나 Google의 연구자들은 추천을 제공하고, 전문 시험 문제에 답하고, 자가 보고된 수면 장애 및 수면 장애 결과를 예측하기 위해 PH-LLM 모델을 교육하는 데 획기적인 발전을 이루었습니다. 모델에는 객관식 질문이 주어졌고, 연구원들은 "사고 연쇄"(인간의 추론을 모방) 및 "제로샷" 방법(이전에 접하지 못한 개체와 개념을 식별)도 사용했습니다.
놀랍게도 PH-LLM은 수면 검사에서 79%, 피트니스 검사에서 88%의 점수를 달성했는데, 두 점수 모두 전문 운동 트레이너 5명(평균 경험 13.8년)과 전문가 그룹 표본의 평균 점수를 초과했습니다. 수면의학 전문의 5명 (평균 경력 25년) 피트니스와 수면에 대한 인간 전문가의 평균 점수는 각각 71%와 76%였습니다.
연구원들은 "개인 건강 영역에서는 추가 개발 및 평가 작업이 필요하지만 이러한 결과는 Gemini 모델의 광범위한 지식 기반과 기능을 보여줍니다."라고 말했습니다.
이러한 결과를 달성하기 위해 연구원들은 먼저 웨어러블 장치, 도메인 전문 지식 및 자체 보고된 수면 품질 예측을 통해 개인화된 통찰력과 권장 사항을 테스트하기 위해 세 가지 데이터 세트를 만들고 선별했습니다. 그들은 도메인 전문가와 협력하여 수면 및 피트니스 분야의 실제 시나리오를 나타내는 857개의 사례 연구를 만들었습니다. 수면 장면은 개별 지표를 사용하여 근본적인 요인을 식별하고 맞춤형 권장 사항을 제공하여 수면의 질을 향상시킵니다. 피트니스 작업은 훈련, 수면, 건강 지표 및 사용자 피드백의 정보를 사용하여 특정 날짜의 신체 활동 강도에 대한 권장 사항을 개발합니다.
두 사례 연구 모두 최대 29일의 수면 데이터, 30일 이상의 피트니스 데이터를 포함한 웨어러블 센서 데이터와 함께 인구통계 정보(연령 및 성별) 및 전문가 분석을 포함합니다.
연구원들은 PH-LLM이 여느 신흥 기술과 마찬가지로 시작일 뿐이지만 여전히 해결해야 할 몇 가지 문제가 있다고 지적합니다. 예를 들어, 모델에 의해 생성된 응답이 항상 일관되지는 않으며, 사례 연구에 "중요한 차이"가 있다는 허구가 있으며, LLM은 때때로 응답에서 보수적이거나 신중한 것처럼 보입니다. 피트니스 사례 연구에서 모델은 과도한 훈련에 매우 민감했으며, 한 경우에는 인간 전문가가 수면 부족으로 인한 부상의 잠재적 원인을 식별하지 못했다고 지적했습니다. 또한 사례 연구는 다양한 인구통계와 상대적으로 활동적인 개인을 광범위하게 다루므로 인구를 완전히 대표하지 못하거나 광범위한 수면 및 피트니스 문제를 다루지 않을 수 있습니다.
결론적으로, 개인 건강 분야에서 PH-LLM의 적용은 큰 잠재력을 보여주지만 여전히 추가적인 개선이 필요합니다. 향후 연구는 실제 시나리오에서 안전하고 효과적인 적용을 보장하기 위해 일관성, 견고성 및 더 넓은 인구에 대한 적용 가능성에 초점을 맞춰야 합니다.