该存储库包含与作为 [1] 的一部分执行的 MedQA 重新标记相对应的数据和代码,特别是针对图 4b 和附录 C.2 中的结果。
[1] Khaled Saab、Tao Tu、Wei-Hung Weng、Ryutaro Tanno、David Stutz、Ellery Wulczyn、Fan 张、Tim Strother、Chunjong Park、Elahe Vedadi、Juanma Zambrano Chaves、Szu-Yeu Hu、Mike Schaekermann、Aishwarya Kamath、郑勇、David GT Barrett、Cathy Cheung、Basil Mustafa、Anil Palepu、Daniel McDuff、Le Hou、Tomer Golany、Luyang Liu、Jean-baptiste Alayrac、Neil Houlsby、Nenad Tomasev、Jan Freyberg、Charles Lau、Jonas Kemp、Jeremy Lai、Shekoofeh Azizi、Kimberly Kanada、SiWai Man、Kavita Kulkarni、Ruoxi Sun、Siamak沙克里、何鲁恒、本·凯恩、阿尔伯特·韦伯森、娜塔莎·拉提舍瓦、梅尔文·约翰逊、菲利普·曼斯菲尔德、陆健、埃胡德·里夫林、杰斯珀·安德森、布拉德利·格林、蕾妮·王、乔纳森·克劳斯、乔纳森·施伦斯、埃娃·多米诺斯卡、SM Ali Eslami、凯瑟琳·周、克莱尔·崔、奥里奥尔·维尼亚尔斯、科雷·卡武克库奥格鲁、詹姆斯·马尼卡、杰夫迪恩、杰米斯·哈萨比斯、约西·马蒂亚斯、戴尔·韦伯斯特、乔丽·巴拉尔、 Greg Corrado、Christopher Semturs、S. Sara Mahdavi、Juraj Gottweis、Alan Karthikesalingam、Vivek Natarajan。双子座模型在医学中的能力。 ArXiv,abs/2404.18416。
Med-Gemini 是一系列功能强大的多模式模型,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模式进行定制。 Med-Gemini 在流行的 MedQA (USMLE) 基准上尤其实现了 91.1% 的最先进性能。然而,作为评估的一部分,我们注意到并非 MedQA 测试集中的所有问题都适合评估。我们怀疑各种问题包括标签错误或参考缺失信息,例如未包含的数字或实验室结果。为了报告可靠的结果,我们对每个问题至少使用 3 名初级保健医生 (PCP) 进行了 MedQA 的全面重新标记,询问缺失信息和标签错误。该存储库包含相应的数据和分析代码。
按照官方说明安装 Conda。确保安装后重新启动 bash。
使用克隆此存储库
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
从environment.yml
创建一个新的Conda环境并激活它(可以使用conda deactivate
随时停用该环境):
conda env create -f environment.yml
conda activate medqa_relabelling
或者,手动安装jupyter
、 numpy
、 pandas
和matplotlib
。
这些指令已在 64 位 Linux 工作站上使用 Conda 版本 23.7.4(不是 miniconda)进行了测试。我们建议确保没有激活冲突的pyenv
环境,或者在使用的 bash 配置文件中显式设置或更改PATH
。激活 Conda 环境后,相应的 Python 二进制文件应位于PATH
第一个位置。如果情况并非如此(例如, PATH
首先在~/.local/
中列出本地 Python 安装),则可能会导致问题。
带注释的 MedQA 问题可在medqa_relabelling.csv
中找到,并且可以使用 Pandas 轻松加载:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
CSV 文件以行形式包含各个评级,并具有以下列:
time
: 注释任务的时间(以毫秒为单位);worker_id
匿名工人 ID;qid
:问题 ID;question
:MedQA 问题;A
到D
:MedQA 的答案选项;answer_idx
:MedQA 的真实答案;info_missing
和important_info_missing
:评估者是否表明问题中的信息缺失以及该信息是否被评为对于回答问题很重要;blind_answerable
和seen_answerable
:评估者是否确定一个或多个选项在揭示真实答案之前 ( blind_
) 和之后 ( seen_
) 回答了问题;blind_asnwers
和seen_answers
:如果问题可以回答,则选择的答案;seen_change
:评估者在揭示事实真相后是否更新了他们的答案。有关确切研究设计的详细信息,请参阅论文附录 C.2。
运行medqa_analysis.ipynb
使用虚拟模型预测重现论文中的结果。您可以将它们替换为模型的预测,以重现论文中的图 4b。
使用此存储库的任何部分时,请确保按如下方式引用该论文:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
所有软件均根据 Apache 许可证 2.0 版 (Apache 2.0) 获得许可;除非遵守 Apache 2.0 许可证,否则您不得使用此文件。您可以在以下位置获取 Apache 2.0 许可证的副本:https://www.apache.org/licenses/LICENSE-2.0
所提供的注释已获得 Creative Commons Attribution 4.0 International License (CC-BY) 的许可。您可以通过以下网址获取 CC-BY 许可证副本:https://creativecommons.org/licenses/by/4.0/legalcode
除非适用法律要求或书面同意,否则此处根据 Apache 2.0 或 CC-BY 许可分发的所有软件和材料均按“原样”分发,不附带任何明示或暗示的保证或条件。请参阅特定语言的许可证,了解这些许可证下的权限和限制。
这不是 Google 官方产品。
原始 MedQA 问题的许可证可以在 jind11/MedQA 中找到。