Este repositorio contiene datos y códigos correspondientes al reetiquetado de MedQA realizado como parte de [1], específicamente para los resultados de la Figura 4b y el apéndice C.2.
[1] Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David GT Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, SM Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster , Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan. Capacidades de los modelos Géminis en medicina. ArXiv, abs/2404.18416.
Med-Gemini es una familia de modelos multimodales de alta capacidad especializados en medicina con la capacidad de utilizar sin problemas la búsqueda web y que se pueden adaptar de manera eficiente a modalidades novedosas mediante codificadores personalizados. Med-Gemini logra particularmente un nuevo rendimiento de última generación con una precisión del 91,1% en el popular punto de referencia MedQA (USMLE). Sin embargo, como parte de esta evaluación, notamos que no todas las preguntas del conjunto de pruebas MedQA son razonables para ser evaluadas. Sospechamos que varias preguntas incluyen errores de etiqueta o información faltante de referencia, como cifras o resultados de laboratorio que no están incluidos. Para informar resultados confiables, realizamos un reetiquetado completo de MedQA utilizando al menos 3 médicos de atención primaria (PCP) por pregunta, solicitando información faltante y errores de etiqueta. Este repositorio incluye los datos correspondientes y el código de análisis.
Instale Conda siguiendo las instrucciones oficiales. Asegúrese de reiniciar bash después de la instalación.
Clona este repositorio usando
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
Cree un nuevo entorno Conda desde environment.yml
y actívelo (el entorno se puede desactivar en cualquier momento usando conda deactivate
):
conda env create -f environment.yml
conda activate medqa_relabelling
Alternativamente, instale manualmente jupyter
, numpy
, pandas
y matplotlib
.
Estas instrucciones se han probado con Conda versión 23.7.4 (no miniconda) en una estación de trabajo Linux de 64 bits. Recomendamos asegurarse de que no se activen entornos pyenv
conflictivos o que PATH
se establezca o cambie explícitamente en el perfil de bash utilizado. Después de activar el entorno Conda, el binario de Python correspondiente debe estar primero en PATH
. Si ese no es el caso (por ejemplo, PATH
enumera primero una instalación local de Python en ~/.local/
), esto puede causar problemas.
Las preguntas de MedQA con nuestras anotaciones están disponibles en medqa_relabelling.csv
y se pueden cargar fácilmente usando Pandas:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
El archivo CSV contiene las calificaciones individuales como filas, con las siguientes columnas:
time
: tiempo de la tarea de anotación en milisegundos;worker_id
una identificación de trabajador anónima;qid
: una identificación de pregunta;question
: la pregunta MedQA;A
a D
: opciones de respuesta de MedQA;answer_idx
: respuesta de verdad fundamental de MedQA;info_missing
e important_info_missing
: si el evaluador indicó que falta información en la pregunta y si esta información fue calificada como importante para responder la pregunta;blind_answerable
y seen_answerable
: si el evaluador determinó que una o más de las opciones responde a la pregunta antes ( blind_
) y después ( seen_
) de revelar la respuesta verdadera;blind_asnwers
y seen_answers
: las respuestas seleccionadas si la pregunta tiene respuesta;seen_change
: si el evaluador actualizó su respuesta después de revelar la verdad fundamental.Los detalles sobre el diseño exacto del estudio se pueden encontrar en el documento, Apéndice C.2.
Ejecute medqa_analysis.ipynb
para reproducir nuestros resultados del artículo utilizando predicciones de modelos ficticios. Puede reemplazarlos con las predicciones de su modelo para reproducir la Figura 4b en el artículo.
Cuando utilice cualquier parte de este repositorio, asegúrese de citar el artículo de la siguiente manera:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
Todo el software tiene la licencia Apache, versión 2.0 (Apache 2.0); no puede utilizar este archivo excepto de conformidad con la licencia Apache 2.0. Puede obtener una copia de la licencia Apache 2.0 en: https://www.apache.org/licenses/LICENSE-2.0
Las anotaciones proporcionadas están bajo la licencia internacional Creative Commons Attribution 4.0 (CC-BY). Puede obtener una copia de la licencia CC-BY en: https://creativecommons.org/licenses/by/4.0/legalcode
A menos que lo exija la ley aplicable o se acuerde por escrito, todo el software y los materiales distribuidos aquí bajo las licencias Apache 2.0 o CC-BY se distribuyen "TAL CUAL", SIN GARANTÍAS NI CONDICIONES DE NINGÚN TIPO, ya sean expresas o implícitas. Consulte las licencias para conocer el idioma específico que rige los permisos y limitaciones de dichas licencias.
Este no es un producto oficial de Google.
La licencia para las preguntas originales de MedQA se puede encontrar en jind11/MedQA.