이 저장소에는 [1]의 일부로 수행된 MedQA 재라벨링, 특히 그림 4b 및 부록 C.2의 결과에 해당하는 데이터 및 코드가 포함되어 있습니다.
[1] Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, 박춘종, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, 용 쳉, 데이비드 GT 바렛, 캐시 청, 바질 무스타파, 아닐 팔레푸, 다니엘 McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak 샤케리, 허 루헨, 벤 케인, 앨버트 웹슨, 나타샤 라티셰바, 멜빈 존슨, 필립 맨스필드, 지안 루, 에후드 리블린, 제스퍼 앤더슨, 브래들리 그린, 르네 웡, 조나단 크라우스, 조나단 슐렌스, 에와 도미노브스카, SM 알리 에슬라미, 캐서린 추, 클레어 큐이, 오리올 빈얄스, 코레이 카부크쿠오글루, 제임스 매니카 , 제프 딘, 데미스 허사비스, 요시 마티아스, 데일 웹스터, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan. 의학에서 Gemini 모델의 기능. ArXiv, ABS/2404.18416.
Med-Gemini는 웹 검색을 원활하게 사용할 수 있는 기능과 함께 의학 전문화되고 맞춤형 인코더를 사용하여 새로운 양식에 효율적으로 맞춤화할 수 있는 고성능 다중 모드 모델 제품군입니다. Med-Gemini는 특히 인기 있는 MedQA(USMLE) 벤치마크에서 91.1% 정확도라는 새로운 최첨단 성능을 달성했습니다. 그러나 이 평가의 일환으로 우리는 MedQA 테스트 세트의 모든 질문이 평가하기에 합당한 것은 아니라는 점을 발견했습니다. 다양한 질문에 라벨 오류나 포함되지 않은 수치나 실험실 결과와 같은 참조 누락 정보가 포함되어 있다고 의심했습니다. 신뢰할 수 있는 결과를 보고하기 위해 우리는 질문당 최소 3명의 주치의(PCP)를 대상으로 MedQA에 대한 완전한 재라벨링을 실시하여 잘못된 정보와 라벨 오류를 요청했습니다. 이 저장소에는 해당 데이터와 분석 코드가 포함되어 있습니다.
공식 지침에 따라 Conda를 설치합니다. 설치 후 bash를 다시 시작하십시오.
다음을 사용하여 이 저장소를 복제하세요.
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
environment.yml
에서 새 Conda 환경을 생성하고 활성화합니다(환경은 conda deactivate
사용하여 언제든지 비활성화할 수 있음).
conda env create -f environment.yml
conda activate medqa_relabelling
또는 jupyter
, numpy
, pandas
및 matplotlib
수동으로 설치하세요.
이 지침은 64비트 Linux 워크스테이션에서 Conda 버전 23.7.4(miniconda 아님)를 사용하여 테스트되었습니다. 충돌하는 pyenv
환경이 활성화되지 않았는지 또는 사용된 bash 프로필에서 PATH
명시적으로 설정 또는 변경되지 않았는지 확인하는 것이 좋습니다. Conda 환경을 활성화한 후 해당 Python 바이너리가 PATH
의 첫 번째 위치에 있어야 합니다. 그렇지 않은 경우(예: PATH
~/.local/
에 로컬 Python 설치를 먼저 나열함) 문제가 발생할 수 있습니다.
주석이 포함된 MedQA 질문은 medqa_relabelling.csv
에서 제공되며 Pandas를 사용하여 쉽게 로드할 수 있습니다.
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
CSV 파일에는 개별 등급이 다음 열과 함께 행으로 포함되어 있습니다.
time
: 주석 작업 시간(밀리초)입니다.worker_id
익명화된 작업자 ID입니다.qid
: 질문 ID;question
: MedQA 질문;A
부터 D
까지: MedQA의 답변 옵션;answer_idx
: MedQA의 실제 답변입니다.info_missing
및 important_info_missing
: 평가자가 질문의 정보가 누락되었음을 표시했는지 여부와 이 정보가 질문에 답변하는 데 중요한 것으로 평가되었는지 여부blind_answerable
및 seen_answerable
: 평가자가 정답 답변을 공개하기 전( blind_
) 및 이후( seen_
)에 하나 이상의 옵션이 질문에 답변한다고 결정했는지 여부.blind_asnwers
및 seen_answers
: 질문에 답변할 수 있는 경우 선택된 답변입니다.seen_change
: 평가자가 실제 사실을 공개한 후 답변을 업데이트했는지 여부입니다.정확한 연구 설계에 대한 자세한 내용은 논문 부록 C.2에서 확인할 수 있습니다.
medqa_analysis.ipynb
실행하여 더미 모델 예측을 사용하여 논문의 결과를 재현하세요. 이를 모델의 예측으로 대체하여 논문의 그림 4b를 재현할 수 있습니다.
이 저장소의 일부를 사용할 때 다음과 같이 논문을 인용하십시오.
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
모든 소프트웨어는 Apache 라이센스 버전 2.0(Apache 2.0)에 따라 라이센스가 부여됩니다. Apache 2.0 라이센스를 준수하는 경우를 제외하고는 이 파일을 사용할 수 없습니다. https://www.apache.org/licenses/LICENSE-2.0에서 Apache 2.0 라이센스 사본을 얻을 수 있습니다.
제공된 주석은 Creative Commons Attribution 4.0 International License(CC-BY)에 따라 라이센스가 부여됩니다. https://creativecommons.org/licenses/by/4.0/legalcode에서 CC-BY 라이센스 사본을 얻을 수 있습니다.
해당 법률에서 요구하거나 서면으로 동의하지 않는 한, Apache 2.0 또는 CC-BY 라이센스에 따라 여기에서 배포되는 모든 소프트웨어 및 자료는 명시적이든 묵시적이든 어떠한 종류의 보증이나 조건 없이 "있는 그대로" 배포됩니다. 해당 라이선스에 따른 허가 및 제한 사항을 관리하는 특정 언어는 라이선스를 참조하세요.
이것은 공식 Google 제품이 아닙니다.
원본 MedQA 질문에 대한 라이선스는 jind11/MedQA에서 찾을 수 있습니다.