Ce référentiel contient les données et le code correspondant au réétiquetage MedQA effectué dans le cadre de [1], spécifiquement pour les résultats de la figure 4b et de l'annexe C.2.
[1] Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David GT Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng Lui, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, SM Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan. Capacités des modèles Gemini en médecine. ArXiv, abs/2404.18416.
Med-Gemini est une famille de modèles multimodaux hautement performants, spécialisés en médecine, capables d'utiliser de manière transparente la recherche sur le Web et pouvant être adaptés efficacement à de nouvelles modalités à l'aide d'encodeurs personnalisés. Med-Gemini atteint en particulier une nouvelle performance de pointe d'une précision de 91,1 % sur le célèbre benchmark MedQA (USMLE). Cependant, dans le cadre de cette évaluation, nous avons remarqué qu'il n'est pas raisonnable d'évaluer toutes les questions de l'ensemble de tests MedQA. Nous soupçonnons que diverses questions contiennent des erreurs d'étiquetage ou font référence à des informations manquantes telles que des chiffres ou des résultats de laboratoire qui ne sont pas inclus. Afin de rapporter des résultats fiables, nous avons donc procédé à un réétiquetage complet de MedQA en utilisant au moins 3 médecins de premier recours (PCP) par question, en demandant les informations manquantes et les erreurs d'étiquetage. Ce référentiel comprend les données et le code d'analyse correspondants.
Installez Conda en suivant les instructions officielles. Assurez-vous de redémarrer bash après l'installation.
Clonez ce référentiel en utilisant
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
Créez un nouvel environnement Conda à partir de environment.yml
et activez-le (l'environnement peut être désactivé à tout moment en utilisant conda deactivate
) :
conda env create -f environment.yml
conda activate medqa_relabelling
Vous pouvez également installer manuellement jupyter
, numpy
, pandas
et matplotlib
.
Ces instructions ont été testées avec Conda version 23.7.4 (et non miniconda) sur un poste de travail Linux 64 bits. Nous vous recommandons de vous assurer qu'aucun environnement pyenv
en conflit n'est activé ou que PATH
n'est explicitement défini ou modifié dans le profil bash utilisé. Après avoir activé l'environnement Conda, le binaire Python correspondant doit être en premier dans PATH
. Si ce n'est pas le cas (par exemple, PATH
répertorie d'abord une installation Python locale dans ~/.local/
), cela peut poser des problèmes.
Les questions MedQA avec nos annotations sont disponibles dans medqa_relabelling.csv
et peuvent facilement être chargées à l'aide de Pandas :
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
Le fichier CSV contient les évaluations individuelles sous forme de lignes, avec les colonnes suivantes :
time
: Durée de la tâche d'annotation en millisecondes ;worker_id
un identifiant de travailleur anonymisé ;qid
: un identifiant de question ;question
: la question MedQA ;A
à D
: options de réponse de MedQA ;answer_idx
: réponse de vérité terrain de MedQA ;info_missing
et important_info_missing
: si l'évaluateur a indiqué que des informations dans la question manquaient et si ces informations ont été jugées importantes pour répondre à la question ;blind_answerable
et seen_answerable
: si l'évaluateur a déterminé qu'une ou plusieurs des options répondent à la question avant ( blind_
) et après ( seen_
) révélant la réponse de la vérité terrain ;blind_asnwers
et seen_answers
: les réponses sélectionnées si la question peut répondre ;seen_change
: indique si l'évaluateur a mis à jour sa réponse après avoir révélé la vérité terrain.Des détails sur la conception exacte de l’étude peuvent être trouvés dans le document, annexe C.2.
Exécutez medqa_analysis.ipynb
pour reproduire nos résultats de l'article à l'aide de prédictions de modèles factices. Vous pouvez les remplacer par les prédictions de votre modèle pour reproduire la figure 4b dans l'article.
Lorsque vous utilisez une partie de ce référentiel, assurez-vous de citer l'article comme suit :
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
Tous les logiciels sont sous licence Apache, version 2.0 (Apache 2.0) ; vous ne pouvez pas utiliser ce fichier sauf en conformité avec la licence Apache 2.0. Vous pouvez obtenir une copie de la licence Apache 2.0 à l'adresse : https://www.apache.org/licenses/LICENSE-2.0
Les annotations fournies sont sous licence Creative Commons Attribution 4.0 International License (CC-BY). Vous pouvez obtenir une copie de la licence CC-BY à l'adresse : https://creativecommons.org/licenses/by/4.0/legalcode
Sauf disposition contraire de la loi applicable ou accord écrit, tous les logiciels et matériels distribués ici sous les licences Apache 2.0 ou CC-BY sont distribués « TELS QUELS », SANS GARANTIES NI CONDITIONS D'AUCUNE SORTE, expresses ou implicites. Consultez les licences pour connaître la langue spécifique régissant les autorisations et les limitations de ces licences.
Ce n'est pas un produit Google officiel.
La licence pour les questions MedQA originales se trouve dans jind11/MedQA.