此儲存庫包含與作為 [1] 的一部分執行的 MedQA 重新標記相對應的資料和程式碼,特別是針對圖 4b 和附錄 C.2 中的結果。
[1] Khaled Saab、Tao Tu、Wei-Hung Weng、Ryutaro Tanno、David Stutz、Ellery Wulczyn、Fan 張、Tim Strother、Chunjong Park、Elahe Vedadi、Juanma Zambrano Chaves、Szu-Yeu Hu、Mike Schaekermann、Aishwarya Kamath、Aishwarya Kamath、程勇、David GT Barrett、Cathy Cheung、Basil Mustafa、Anil Palepu、Daniel McDuff、Le Hou、Tomer Golany、Luyang Liu、Jean-baptiste Alayrac、Neil Houlsby、Nenad Tomasev、Jan Freyberg、Charles Lau、Jonas Kemp、Jeremy Lai , Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, 陸健, Ehud Rivlin, Jesper Anderson, Bradley Johnson, Philip Mansfield, 陸健, Ehud Rivlin, Jesper Anderson, Bradley, Greenesper Anderson Wong、喬納森·克勞斯、喬納森·施倫斯、埃娃·多米諾斯卡、SM Ali Eslami、凱瑟琳·週、克萊爾·崔、奧裡奧爾·維尼亞爾斯、科雷·卡武克庫奧格魯、詹姆斯·馬尼卡、傑夫·迪恩、德米斯·哈薩比斯、約西·馬蒂亞斯、戴爾·韋伯斯特、喬爾·巴拉爾、格雷格·科拉多、克里斯多福·塞姆圖斯、S. Sara Mahdavi、Juraj Gottweis、Alan Karthikesalingam、Vivek Natarajan。雙子座模型在醫學中的能力。 ArXiv,abs/2404.18416。
Med-Gemini 是一系列功能強大的多模式模型,專門用於醫學,能夠無縫使用網路搜索,並且可以使用自訂編碼器有效地針對新穎的模式進行自訂。 Med-Gemini 在流行的 MedQA (USMLE) 基準上尤其實現了 91.1% 的最先進性能。然而,作為評估的一部分,我們注意到並非 MedQA 測試集中的所有問題都適合評估。我們懷疑各種問題包括標籤錯誤或參考缺失訊息,例如未包含的數字或實驗室結果。為了報告可靠的結果,我們對每個問題至少使用 3 名初級保健醫生 (PCP) 進行了 MedQA 的全面重新標記,詢問缺失資訊和標籤錯誤。此儲存庫包含相應的資料和分析程式碼。
按照官方說明安裝 Conda。確保安裝後重新啟動 bash。
使用克隆此儲存庫
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
從environment.yml
創建一個新的Conda環境並啟動它(可以使用conda deactivate
隨時停用該環境):
conda env create -f environment.yml
conda activate medqa_relabelling
或者,手動安裝jupyter
、 numpy
、 pandas
和matplotlib
。
這些指令已在 64 位元 Linux 工作站上使用 Conda 版本 23.7.4(不是 miniconda)進行了測試。我們建議確保沒有啟動衝突的pyenv
環境,或在使用的 bash 設定檔中明確設定或變更PATH
。啟動 Conda 環境後,對應的 Python 二進位檔案應位於PATH
第一個位置。如果情況並非如此(例如, PATH
首先在~/.local/
中列出本機 Python 安裝),則可能會導致問題。
附註釋的 MedQA 問題可在medqa_relabelling.csv
中找到,並且可以使用 Pandas 輕鬆載入:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
CSV 檔案以行形式包含各個評級,並具有以下列:
time
: 註釋任務的時間(以毫秒為單位);worker_id
匿名工人 ID;qid
:問題 ID;question
:MedQA 問題;A
到D
:MedQA 的答案選項;answer_idx
:MedQA 的真實答案;info_missing
和important_info_missing
:評估者是否表明問題中的資訊缺失以及該資訊是否被評為對於回答問題很重要;blind_answerable
和seen_answerable
:評估者是否確定一個或多個選項在揭示真實答案之前 ( blind_
) 和之後 ( seen_
) 回答了問題;blind_asnwers
和seen_answers
:如果問題可以回答,則選擇的答案;seen_change
:評估者在揭示事實真相後是否更新了他們的答案。有關確切研究設計的詳細信息,請參閱論文附錄 C.2。
運行medqa_analysis.ipynb
使用虛擬模型預測重現論文中的結果。您可以將它們替換為模型的預測,以重現論文中的圖 4b。
使用此存儲庫的任何部分時,請確保按如下方式引用該論文:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
所有軟體均根據 Apache 授權 2.0 版 (Apache 2.0) 授權;除非遵守 Apache 2.0 許可證,否則您不得使用此文件。您可以在以下位置取得 Apache 2.0 授權的副本:https://www.apache.org/licenses/LICENSE-2.0
所提供的註釋已獲得 Creative Commons Attribution 4.0 International License (CC-BY) 的授權。您可以透過以下網址取得 CC-BY 授權副本:https://creativecommons.org/licenses/by/4.0/legalcode
除非適用法律要求或書面同意,否則此處根據 Apache 2.0 或 CC-BY 許可分發的所有軟體和材料均按「原樣」分發,不附帶任何明示或暗示的保證或條件。請參閱特定語言的許可證,以了解這些許可證下的權限和限制。
這不是 Google 官方產品。
原始 MedQA 問題的許可證可以在 jind11/MedQA 中找到。