Модель большого языка Gemini от Google (LLM) всего за шесть месяцев продемонстрировала удивительный потенциал, особенно в сфере здравоохранения. Его производная модель, PH-LLM, предназначена для обработки данных носимых устройств и превосходит даже опытных экспертов в рекомендациях по сну и фитнесу. В этой статье мы углубимся в выдающуюся производительность PH-LLM, ее ограничения и будущие направления развития.
Модели Gemini от Google всего шесть месяцев, и она уже продемонстрировала впечатляющие возможности в области безопасности, кодирования, отладки и других областях. Конечно, она также продемонстрировала серьезные ограничения. Однако эта большая языковая модель (LLM) превзошла людей по рекомендациям по сну и фитнесу. Исследователи из Google представили Большую языковую модель личного здоровья (PH-LLM), тонко настроенную версию Gemini, которая может понимать и анализировать временные ряды данных о личном здоровье с носимых устройств, таких как умные часы и пульсометры. В своих экспериментах модель отвечала и предсказывала вопросы значительно лучше, чем эксперты с многолетним опытом работы в сфере здоровья и фитнеса.
Носимые технологии могут помочь людям следить за своим здоровьем и, в идеале, вносить значимые изменения. Устройства предоставляют «богатый и долгосрочный источник данных», который можно «пассивно и непрерывно получать» из таких данных, как журналы тренировок и питания, дневники настроения, а иногда даже активность в социальных сетях. Однако данные, которые они собирают о сне, физической активности, кардиометаболическом здоровье и стрессе, редко интегрируются в «частичные» клинические исследования. Исследователи предполагают, что это, вероятно, связано с тем, что данные собираются без контекста и требуют больших вычислительных ресурсов для хранения и анализа. Кроме того, интерпретация этих данных может быть затруднена.
Тем не менее, исследователи из Google добились прорыва в обучении моделей PH-LLM, позволяющих давать рекомендации, отвечать на вопросы профессионального экзамена и прогнозировать нарушения сна и последствия расстройств сна, о которых сообщают сами люди. Модели были заданы вопросы с несколькими вариантами ответов, а исследователи также использовали методы «объединения мыслей» (имитация человеческого мышления) и «нулевого выстрела» (идентификация ранее не встречавшихся объектов и концепций).
Впечатляет, что PH-LLM набрал 79% баллов по тесту на сон и 88% по фитнес-экзамену, оба из которых превысили средний балл выборки экспертных групп, включая пять профессиональных спортивных тренеров (средний опыт 13,8 лет) и пять специалистов по медицине сна (средний стаж 25 лет). Средние оценки экспертов по фитнесу и сну составили 71% и 76% соответственно.
«Хотя необходимы дальнейшие разработки и оценки в области личного здоровья, эти результаты демонстрируют широкую базу знаний и возможности модели Близнецов», — отмечают исследователи.
Чтобы достичь этих результатов, исследователи сначала создали и курировали три набора данных для проверки персонализированных идей и рекомендаций, полученных от носимых устройств, опыта в предметной области и прогнозов качества сна, о которых сообщают сами люди. Они работали с экспертами в предметной области, чтобы создать 857 тематических исследований, которые представляют собой реальные сценарии в области сна и фитнеса. Сцены сна используют индивидуальные показатели для выявления основных факторов и предоставления персонализированных рекомендаций, которые помогут улучшить качество сна. Фитнес-задачи используют информацию о тренировках, сне, показателях здоровья и отзывы пользователей для разработки рекомендаций по интенсивности физической активности на определенный день.
Оба тематических исследования включают данные носимых датчиков, в том числе данные о сне за период до 29 дней и данные о фитнесе за более чем 30 дней, а также демографическую информацию (возраст и пол) и экспертный анализ.
Хотя исследователи отмечают, что PH-LLM — это только начало, как и любая новая технология, ей еще предстоит решить некоторые проблемы. Например, ответы, полученные с помощью модели, не всегда последовательны, в тематических исследованиях существует иллюзия «значительной разницы», а LLM иногда выглядит консервативным или осторожным в своих ответах. В примере с фитнесом модель была очень чувствительна к перетренированности, и в одном случае эксперты-люди отметили, что она не смогла выявить потенциальные причины травм из-за лишения сна. Кроме того, тематические исследования широко охватывают различные демографические группы и относительно активных людей и, следовательно, могут не быть полностью репрезентативными для населения или не затрагивать более широкие проблемы сна и фитнеса.
В заключение отметим, что применение PH-LLM в сфере личного здоровья демонстрирует большой потенциал, но все еще требует дальнейшего совершенствования. Будущие исследования должны быть сосредоточены на его последовательности, надежности и применимости для более широких слоев населения, чтобы гарантировать его безопасное и эффективное применение в реальных сценариях.