Este repositório contém dados e código correspondentes à nova rotulagem do MedQA realizada como parte de [1], especificamente para os resultados na Figura 4b e no apêndice C.2.
[1] Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David GT Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng Ele, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, SM Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias , Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan. Capacidades dos modelos Gemini em medicina. ArXiv, abs/2404.18416.
Med-Gemini é uma família de modelos multimodais altamente capazes, especializados em medicina, com a capacidade de usar facilmente a pesquisa na web e que podem ser adaptados de forma eficiente para novas modalidades usando codificadores personalizados. O Med-Gemini atinge particularmente um novo desempenho de última geração com precisão de 91,1% no popular benchmark MedQA (USMLE). No entanto, como parte desta avaliação, notamos que nem todas as questões do conjunto de testes MedQA são razoáveis para serem avaliadas. Suspeitamos que várias perguntas incluem erros de rótulo ou informações faltantes de referência, como números ou resultados de laboratório que não estão incluídos. A fim de relatar resultados confiáveis, conduzimos uma reetiquetagem completa do MedQA usando pelo menos 3 médicos de atenção primária (PCPs) por pergunta, solicitando informações ausentes e erros de rotulagem. Este repositório inclui os dados correspondentes e o código de análise.
Instale o Conda seguindo as instruções oficiais. Certifique-se de reiniciar o bash após a instalação.
Clone este repositório usando
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
Crie um novo ambiente Conda a partir de environment.yml
e ative-o (o ambiente pode ser desativado a qualquer momento usando conda deactivate
):
conda env create -f environment.yml
conda activate medqa_relabelling
Alternativamente, instale manualmente jupyter
, numpy
, pandas
e matplotlib
.
Estas instruções foram testadas com Conda versão 23.7.4 (não miniconda) em uma estação de trabalho Linux de 64 bits. Recomendamos certificar-se de que nenhum ambiente pyenv
conflitante seja ativado ou que PATH
seja explicitamente definido ou alterado no perfil bash usado. Depois de ativar o ambiente Conda, o binário Python correspondente deve estar primeiro em PATH
. Se esse não for o caso (por exemplo, PATH
lista uma instalação local do Python em ~/.local/
primeiro), isso pode causar problemas.
As perguntas MedQA com nossas anotações estão disponíveis em medqa_relabelling.csv
e podem ser facilmente carregadas usando Pandas:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
O arquivo CSV contém as classificações individuais como linhas, com as seguintes colunas:
time
: Tempo para a tarefa de anotação em milissegundos;worker_id
um ID de trabalhador anônimo;qid
: um id de pergunta;question
: a pergunta MedQA;A
a D
: opções de resposta do MedQA;answer_idx
: resposta verdadeira do MedQA;info_missing
e important_info_missing
: se o avaliador indicou que a informação da questão está faltando e se esta informação foi classificada como importante para responder à questão;blind_answerable
e seen_answerable
: se o avaliador determinou que uma ou mais das opções respondem à pergunta antes ( blind_
) e depois ( seen_
) de revelar a resposta verdadeira;blind_asnwers
e seen_answers
: as respostas selecionadas se a pergunta for respondível;seen_change
: se o avaliador atualizou sua resposta após revelar a verdade básica.Detalhes sobre o desenho exato do estudo podem ser encontrados no artigo, Apêndice C.2.
Execute medqa_analysis.ipynb
para reproduzir nossos resultados do artigo usando previsões de modelos fictícios. Você pode substituí-los pelas previsões do seu modelo para reproduzir a Figura 4b no artigo.
Ao usar qualquer parte deste repositório, certifique-se de citar o artigo da seguinte forma:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
Todo o software é licenciado sob a Licença Apache, Versão 2.0 (Apache 2.0); você não pode usar este arquivo, exceto em conformidade com a licença Apache 2.0. Você pode obter uma cópia da licença Apache 2.0 em: https://www.apache.org/licenses/LICENSE-2.0
As anotações fornecidas estão licenciadas sob a Licença Internacional Creative Commons Attribution 4.0 (CC-BY). Você pode obter uma cópia da licença CC-BY em: https://creativecommons.org/licenses/by/4.0/legalcode
A menos que exigido pela lei aplicável ou acordado por escrito, todos os softwares e materiais distribuídos aqui sob as licenças Apache 2.0 ou CC-BY são distribuídos "COMO ESTÃO", SEM GARANTIAS OU CONDIÇÕES DE QUALQUER TIPO, expressas ou implícitas. Consulte as licenças para o idioma específico que rege as permissões e limitações dessas licenças.
Este não é um produto oficial do Google.
A licença para as perguntas originais do MedQA pode ser encontrada em jind11/MedQA.