Dieses Repository enthält Daten und Code, die der im Rahmen von [1] durchgeführten MedQA-Neukennzeichnung entsprechen, insbesondere für die Ergebnisse in Abbildung 4b und Anhang C.2.
[1] Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David GT Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-Baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng Er, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, SM Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan. Fähigkeiten von Zwillingsmodellen in der Medizin. ArXiv, abs/2404.18416.
Med-Gemini ist eine Familie hochleistungsfähiger multimodaler Modelle, die auf die Medizin spezialisiert sind und die Möglichkeit bieten, die Websuche nahtlos zu nutzen, und die mithilfe benutzerdefinierter Encoder effizient auf neue Modalitäten zugeschnitten werden können. Med-Gemini erreicht insbesondere eine neue, hochmoderne Leistung von 91,1 % Genauigkeit beim beliebten MedQA (USMLE)-Benchmark. Allerdings ist uns im Rahmen dieser Evaluierung aufgefallen, dass nicht alle Fragen im MedQA-Testset sinnvoll ausgewertet werden können. Wir vermuteten, dass verschiedene Fragen Etikettenfehler enthielten oder auf fehlende Informationen wie Zahlen oder Laborergebnisse verwiesen, die nicht enthalten waren. Um zuverlässige Ergebnisse zu melden, führten wir daher eine vollständige Neukennzeichnung von MedQA durch, wobei wir mindestens drei Hausärzte pro Frage verwendeten und nach fehlenden Informationen und Kennzeichnungsfehlern fragten. Dieses Repository enthält die entsprechenden Daten und den Analysecode.
Installieren Sie Conda gemäß den offiziellen Anweisungen. Stellen Sie sicher, dass Sie Bash nach der Installation neu starten.
Klonen Sie dieses Repository mit
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
Erstellen Sie eine neue Conda-Umgebung aus environment.yml
und aktivieren Sie sie (die Umgebung kann jederzeit mit conda deactivate
“ deaktiviert werden):
conda env create -f environment.yml
conda activate medqa_relabelling
Alternativ können Sie jupyter
, numpy
, pandas
und matplotlib
manuell installieren.
Diese Anweisungen wurden mit Conda Version 23.7.4 (nicht Miniconda) auf einer 64-Bit-Linux-Workstation getestet. Wir empfehlen sicherzustellen, dass keine widersprüchlichen pyenv
Umgebungen aktiviert sind oder PATH
im verwendeten Bash-Profil explizit festgelegt oder geändert wird. Nach der Aktivierung der Conda-Umgebung sollte sich die entsprechende Python-Binärdatei zuerst in PATH
befinden. Ist dies nicht der Fall (z. B. listet PATH
zuerst eine lokale Python-Installation in ~/.local/
auf), kann dies zu Problemen führen.
Die MedQA-Fragen mit unseren Anmerkungen sind in medqa_relabelling.csv
verfügbar und können einfach mit Pandas geladen werden:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
Die CSV-Datei enthält die einzelnen Bewertungen als Zeilen mit folgenden Spalten:
time
: Zeit für die Annotationsaufgabe in Millisekunden;worker_id
eine anonymisierte Arbeiter-ID;qid
: eine Frage-ID;question
: die MedQA-Frage;A
bis D
: Antwortoptionen von MedQA;answer_idx
: MedQAs Ground-Truth-Antwort;info_missing
und important_info_missing
: ob der Bewerter angegeben hat, dass Informationen in der Frage fehlen und ob diese Informationen als wichtig für die Beantwortung der Frage bewertet wurden;blind_answerable
und seen_answerable
: ob der Bewerter festgestellt hat, dass eine oder mehrere der Optionen die Frage beantworten, bevor ( blind_
) und nach ( seen_
) die Grundwahrheitsantwort enthüllt wurde;blind_asnwers
und seen_answers
: die ausgewählten Antworten, wenn die Frage beantwortbar ist;seen_change
: ob der Bewerter seine Antwort aktualisiert hat, nachdem er die Grundwahrheit enthüllt hat.Einzelheiten zum genauen Studiendesign finden Sie im Papier, Anhang C.2.
Führen Sie medqa_analysis.ipynb
aus, um unsere Ergebnisse aus der Arbeit mithilfe von Dummy-Modellvorhersagen zu reproduzieren. Sie können sie durch die Vorhersagen Ihres Modells ersetzen, um Abbildung 4b im Papier zu reproduzieren.
Wenn Sie einen Teil dieses Repositorys verwenden, achten Sie darauf, den Artikel wie folgt zu zitieren:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
Die gesamte Software ist unter der Apache-Lizenz, Version 2.0 (Apache 2.0), lizenziert. Sie dürfen diese Datei nur in Übereinstimmung mit der Apache 2.0-Lizenz verwenden. Eine Kopie der Apache 2.0-Lizenz erhalten Sie unter: https://www.apache.org/licenses/LICENSE-2.0
Die bereitgestellten Anmerkungen sind unter der Creative Commons Attribution 4.0 International License (CC-BY) lizenziert. Eine Kopie der CC-BY-Lizenz erhalten Sie unter: https://creativecommons.org/licenses/by/4.0/legalcode
Sofern nicht durch geltendes Recht vorgeschrieben oder schriftlich vereinbart, werden alle hier unter der Apache 2.0- oder CC-BY-Lizenz vertriebenen Software und Materialien „WIE BESEHEN“ und OHNE GEWÄHRLEISTUNGEN ODER BEDINGUNGEN JEGLICHER ART, weder ausdrücklich noch stillschweigend, verteilt. Sehen Sie sich die Lizenzen für die spezifische Sprache an, die die Berechtigungen und Einschränkungen unter diesen Lizenzen regelt.
Dies ist kein offizielles Google-Produkt.
Die Lizenz für die Original-MedQA-Fragen finden Sie unter jind11/MedQA.