El modelo de lenguaje grande Gemini (LLM) de Google ha demostrado un potencial asombroso en solo seis meses, especialmente en el campo de la salud. Su modelo derivado, PH-LLM, está diseñado para procesar datos de dispositivos portátiles y supera incluso a los expertos experimentados en recomendaciones de sueño y fitness. Este artículo profundizará en el desempeño sobresaliente de PH-LLM, sus limitaciones y direcciones de desarrollo futuras.
El modelo Gemini de Google tiene sólo seis meses y ya ha demostrado capacidades impresionantes en seguridad, codificación, depuración y otros campos. Por supuesto, también ha mostrado serias limitaciones. Sin embargo, este modelo de lenguaje grande (LLM) superó a los humanos en cuanto a recomendaciones de sueño y estado físico. Investigadores de Google han presentado el Modelo de lenguaje grande de salud personal (PH-LLM), una versión perfeccionada de Gemini que puede comprender y razonar sobre datos de salud personal en series temporales procedentes de dispositivos portátiles como relojes inteligentes y monitores de frecuencia cardíaca. En sus experimentos, el modelo respondió y predijo preguntas significativamente mejor que los expertos con años de experiencia en el campo de la salud y el fitness.
La tecnología portátil puede ayudar a las personas a controlar su salud e, idealmente, a realizar cambios significativos. Los dispositivos proporcionan una "fuente rica y de largo plazo de datos" que se puede "adquirir pasiva y continuamente" a partir de datos como registros de ejercicio y alimentación, diarios del estado de ánimo y, a veces, incluso de la actividad en las redes sociales. Sin embargo, los datos que capturan sobre el sueño, la actividad física, la salud cardiometabólica y el estrés rara vez se integran en entornos clínicos "fragmentados". Los investigadores especulan que esto probablemente se debe a que los datos se capturan sin contexto y requieren mucha informática para almacenarlos y analizarlos. Además, la interpretación de estos datos puede resultar difícil.
Sin embargo, los investigadores de Google han logrado avances en el entrenamiento de modelos PH-LLM para brindar recomendaciones, responder preguntas de exámenes profesionales y predecir los trastornos del sueño y los resultados de los trastornos del sueño autoinformados. Al modelo se le dieron preguntas de opción múltiple y los investigadores también utilizaron métodos de "encadenamiento de pensamientos" (imitando el razonamiento humano) y de "tiro cero" (identificando objetos y conceptos no encontrados previamente).
Sorprendentemente, PH-LLM logró una puntuación del 79 % en el examen del sueño y del 88 % en el examen de aptitud física, los cuales superaron la puntuación promedio de una muestra de grupos de expertos humanos, incluidos cinco entrenadores deportivos profesionales (experiencia promedio de 13,8 años) y cinco especialistas en medicina del sueño (experiencia promedio de 25 años). Las puntuaciones medias de los expertos humanos en fitness y sueño fueron del 71% y el 76% respectivamente.
"Si bien se necesita más trabajo de desarrollo y evaluación en el ámbito de la salud personal, estos resultados demuestran la amplia base de conocimientos y las capacidades del modelo Gemini", anotaron los investigadores.
Para lograr estos resultados, los investigadores primero crearon y seleccionaron tres conjuntos de datos para probar información y recomendaciones personalizadas de dispositivos portátiles, experiencia en el dominio y predicciones de la calidad del sueño autoinformada. Trabajaron con expertos en el campo para crear 857 estudios de casos que representan escenarios de la vida real en los campos del sueño y el fitness. Las escenas de sueño utilizan métricas individuales para identificar factores subyacentes y brindar recomendaciones personalizadas para ayudar a mejorar la calidad del sueño. Las tareas de fitness utilizan información del entrenamiento, el sueño, las métricas de salud y los comentarios de los usuarios para desarrollar recomendaciones sobre la intensidad de la actividad física para un día determinado.
Ambos estudios de caso incluyen datos de sensores portátiles, incluidos datos de sueño durante hasta 29 días y datos de actividad física durante más de 30 días, junto con información demográfica (edad y sexo) y análisis de expertos.
Aunque los investigadores señalan que PH-LLM es sólo el comienzo, como cualquier tecnología emergente, todavía tiene algunos problemas que resolver. Por ejemplo, las respuestas generadas por el modelo no siempre son consistentes, existe una ficción de "diferencia significativa" en los estudios de caso y el LLM a veces parece conservador o cauteloso en sus respuestas. En el estudio de caso de fitness, el modelo era muy sensible al sobreentrenamiento y, en un caso, los expertos humanos notaron que no logró identificar las causas potenciales de lesiones por falta de sueño. Además, los estudios de caso cubren ampliamente una variedad de datos demográficos e individuos relativamente activos y, por lo tanto, pueden no ser completamente representativos de la población ni abordar cuestiones más amplias sobre el sueño y el estado físico.
En conclusión, la aplicación de PH-LLM en el campo de la salud personal muestra un gran potencial pero aún necesita mejoras adicionales. Las investigaciones futuras deberían centrarse en su coherencia, solidez y aplicabilidad a una población más amplia para garantizar su aplicación segura y eficaz en escenarios reales.