Repositori ini berisi data dan kode yang sesuai dengan pelabelan ulang MedQA yang dilakukan sebagai bagian dari [1], khususnya untuk hasil pada Gambar 4b dan lampiran C.2.
[1] Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Taman Chunjong, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David GT Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, SM Ali Eslami, Katherine Chou, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster , Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan. Kemampuan Model Gemini dalam Kedokteran. ArXiv, abs/2404.18416.
Med-Gemini adalah rangkaian model multimodal berkemampuan tinggi yang berspesialisasi dalam bidang kedokteran dengan kemampuan menggunakan penelusuran web dengan lancar, dan dapat disesuaikan secara efisien dengan modalitas baru menggunakan pembuat enkode khusus. Med-Gemini secara khusus mencapai kinerja canggih baru dengan akurasi 91,1% pada tolok ukur MedQA (USMLE) yang populer. Namun, sebagai bagian dari evaluasi ini, kami memperhatikan bahwa tidak semua pertanyaan dalam rangkaian tes MedQA masuk akal untuk dievaluasi. Kami menduga berbagai pertanyaan menyertakan kesalahan label atau informasi referensi yang hilang seperti gambar atau hasil lab yang tidak disertakan. Untuk melaporkan hasil yang dapat diandalkan, kami melakukan pelabelan ulang MedQA secara penuh menggunakan setidaknya 3 dokter perawatan primer (PCP) per pertanyaan, menanyakan informasi yang salah dan kesalahan label. Repositori ini mencakup data dan kode analisis yang sesuai.
Instal Conda dengan mengikuti instruksi resmi. Pastikan untuk memulai ulang bash setelah instalasi.
Kloning repositori ini menggunakan
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
Buat lingkungan Conda baru dari environment.yml
dan aktifkan (lingkungan dapat dinonaktifkan kapan saja menggunakan conda deactivate
):
conda env create -f environment.yml
conda activate medqa_relabelling
Alternatifnya, instal jupyter
, numpy
, pandas
dan matplotlib
secara manual.
Instruksi ini telah diuji dengan Conda versi 23.7.4 (bukan miniconda) pada workstation Linux 64-bit. Kami menyarankan untuk memastikan bahwa tidak ada lingkungan pyenv
yang bertentangan yang diaktifkan atau PATH
diatur atau diubah secara eksplisit di profil bash yang digunakan. Setelah mengaktifkan lingkungan Conda, biner Python yang sesuai harus menjadi yang pertama di PATH
. Jika bukan itu masalahnya (misalnya, PATH
mencantumkan instalasi Python lokal di ~/.local/
terlebih dahulu), hal ini dapat menyebabkan masalah.
Pertanyaan MedQA dengan anotasi kami tersedia di medqa_relabelling.csv
dan dapat dengan mudah dimuat menggunakan Pandas:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
File CSV berisi peringkat individual dalam bentuk baris, dengan kolom berikut:
time
: Waktu untuk tugas anotasi dalam milidetik;worker_id
id pekerja yang dianonimkan;qid
: id pertanyaan;question
: pertanyaan MedQA;A
sampai D
: pilihan jawaban MedQA;answer_idx
: jawaban kebenaran dasar MedQA;info_missing
dan important_info_missing
: apakah penilai mengindikasikan bahwa informasi dalam pertanyaan tidak tepat dan apakah informasi tersebut dinilai penting untuk menjawab pertanyaan;blind_answerable
dan seen_answerable
: apakah penilai menentukan bahwa satu atau lebih opsi menjawab pertanyaan sebelum ( blind_
) dan setelah ( seen_
) mengungkapkan kebenaran dasar jawaban;blind_asnwers
dan seen_answers
: jawaban yang dipilih jika pertanyaannya dapat dijawab;seen_change
: apakah penilai memperbarui jawabannya setelah mengungkapkan kebenaran dasarnya.Rincian mengenai desain penelitian yang tepat dapat dilihat pada makalah, Lampiran C.2.
Jalankan medqa_analysis.ipynb
untuk mereproduksi hasil kami dari makalah menggunakan prediksi model dummy. Anda dapat menggantinya dengan prediksi model Anda untuk mereproduksi Gambar 4b di makalah.
Saat menggunakan bagian mana pun dari repositori ini, pastikan untuk mengutip makalah sebagai berikut:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
Semua perangkat lunak dilisensikan di bawah Lisensi Apache, Versi 2.0 (Apache 2.0); Anda tidak boleh menggunakan file ini kecuali sesuai dengan lisensi Apache 2.0. Anda dapat memperoleh salinan lisensi Apache 2.0 di: https://www.apache.org/licenses/LICENSE-2.0
Anotasi yang disediakan dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0 (CC-BY). Anda dapat memperoleh salinan lisensi CC-BY di: https://creativecommons.org/licenses/by/4.0/legalcode
Kecuali diwajibkan oleh hukum yang berlaku atau disetujui secara tertulis, semua perangkat lunak dan materi yang didistribusikan di sini di bawah lisensi Apache 2.0 atau CC-BY didistribusikan berdasarkan DASAR "APA ADANYA", TANPA JAMINAN ATAU KETENTUAN DALAM BENTUK APAPUN, baik tersurat maupun tersirat. Lihat lisensi untuk bahasa tertentu yang mengatur izin dan batasan berdasarkan lisensi tersebut.
Ini bukan produk resmi Google.
Lisensi untuk pertanyaan MedQA asli dapat ditemukan di jind11/MedQA.