O Gemini Large Language Model (LLM) do Google mostrou um potencial incrível em apenas seis meses, especialmente na área de saúde. Seu modelo derivado, PH-LLM, foi projetado para processar dados de dispositivos vestíveis e supera até mesmo especialistas experientes em recomendações de sono e condicionamento físico. Este artigo irá aprofundar o excelente desempenho do PH-LLM, suas limitações e direções de desenvolvimento futuro.
O modelo Gemini do Google tem apenas seis meses e já demonstrou capacidades impressionantes em segurança, codificação, depuração e outras áreas. Claro, também mostrou sérias limitações. No entanto, este grande modelo de linguagem (LLM) superou os humanos nas recomendações de sono e condicionamento físico. Pesquisadores do Google revelaram o Personal Health Large Language Model (PH-LLM), uma versão bem ajustada do Gemini que pode compreender e raciocinar sobre dados pessoais de saúde em séries temporais de dispositivos vestíveis, como smartwatches e monitores de frequência cardíaca. Em seus experimentos, o modelo respondeu e previu perguntas significativamente melhor do que especialistas com anos de experiência na área de saúde e condicionamento físico.
A tecnologia wearable pode ajudar as pessoas a monitorizar a sua saúde e, idealmente, a fazer mudanças significativas. Os dispositivos fornecem uma “fonte de dados rica e de longo prazo” que pode ser “adquirida passiva e continuamente” a partir de informações como registros de exercícios e alimentação, diários de humor e, às vezes, até atividades nas redes sociais. No entanto, os dados que captam sobre sono, atividade física, saúde cardiometabólica e stress raramente são integrados em ambientes clínicos “fragmentados”. Os pesquisadores especulam que isso provavelmente ocorre porque os dados são capturados sem contexto e exigem muita computação para serem armazenados e analisados. Além disso, a interpretação destes dados pode ser difícil.
No entanto, os pesquisadores do Google fizeram avanços no treinamento de modelos PH-LLM para fornecer recomendações, responder a perguntas de exames profissionais e prever distúrbios do sono e resultados de distúrbios do sono relatados pelos próprios. O modelo recebeu questões de múltipla escolha, e os pesquisadores também usaram métodos de “encadeamento de pensamentos” (imitando o raciocínio humano) e “tiro zero” (identificando objetos e conceitos anteriormente não encontrados).
Impressionantemente, o PH-LLM alcançou uma pontuação de 79% no exame de sono e 88% no exame de condicionamento físico, ambos excedendo a pontuação média de uma amostra de grupos de especialistas humanos, incluindo cinco treinadores esportivos profissionais (experiência média de 13,8 anos) e cinco especialistas em medicina do sono (experiência média de 25 anos). As pontuações médias dos especialistas humanos em condicionamento físico e sono foram de 71% e 76%, respectivamente.
“Embora seja necessário mais desenvolvimento e trabalho de avaliação no domínio da saúde pessoal, estes resultados demonstram a ampla base de conhecimento e capacidades do modelo Gemini”, observaram os investigadores.
Para alcançar esses resultados, os pesquisadores primeiro criaram e selecionaram três conjuntos de dados para testar insights e recomendações personalizadas de dispositivos vestíveis, experiência no domínio e previsões de qualidade do sono relatada pelos próprios. Eles trabalharam com especialistas na área para criar 857 estudos de caso que representam cenários da vida real nas áreas de sono e condicionamento físico. As Cenas de Sono usam métricas individuais para identificar fatores subjacentes e fornecer recomendações personalizadas para ajudar a melhorar a qualidade do sono. As tarefas de condicionamento físico usam informações de treinamento, sono, métricas de saúde e feedback do usuário para desenvolver recomendações para a intensidade da atividade física em um determinado dia.
Ambos os estudos de caso incluem dados de sensores vestíveis, incluindo dados de sono por até 29 dias e dados de condicionamento físico por mais de 30 dias, juntamente com informações demográficas (idade e sexo) e análises de especialistas.
Embora os pesquisadores observem que o PH-LLM é apenas o começo, como qualquer tecnologia emergente, ele ainda tem alguns problemas a resolver. Por exemplo, as respostas geradas pelo modelo nem sempre são consistentes, há uma ficção de “diferença significativa” nos estudos de caso, e o LLM por vezes parece conservador ou cauteloso nas suas respostas. No estudo de caso de fitness, o modelo foi muito sensível ao overtraining e, num caso, especialistas humanos observaram que não conseguiu identificar potenciais causas de lesões decorrentes da privação de sono. Além disso, os estudos de caso cobrem amplamente uma variedade de dados demográficos e indivíduos relativamente activos e, portanto, podem não ser totalmente representativos da população ou abordar questões mais amplas de sono e fitness.
Concluindo, a aplicação do PH-LLM na área da saúde pessoal apresenta grande potencial, mas ainda precisa de mais melhorias. A investigação futura deve centrar-se na sua consistência, robustez e aplicabilidade a uma população mais ampla para garantir a sua aplicação segura e eficaz em cenários reais.