يحتوي هذا المستودع على البيانات والتعليمات البرمجية المقابلة لإعادة تسمية MedQA التي تم إجراؤها كجزء من [1]، وتحديدًا للنتائج الواردة في الشكل 4ب والملحق C.2.
[1] خالد صعب، تاو تو، وي-هونج وينج، ريوتارو تانو، ديفيد ستوتز، إليري وولتشين، فان زانج، تيم ستروثر، تشونجونج بارك، إلاهي فيدادي، خوانما زامبرانو تشافيس، سو-يو هو، مايك شيكرمان، أيشواريا كاماث، يونج تشينج، ديفيد جي تي باريت، كاثي تشيونج، باسل مصطفى، أنيل باليبو، دانيال ماكدوف، لو هو، تومر جولاني، لويانغ ليو، جان بابتيست ألايراك، نيل هولسبي، نيناد توماسيف، جان فرايبيرج، تشارلز لاو، جوناس كيمب، جيريمي لاي، شيكوفه عزيزي، كيمبرلي كانادا، سيواي مان، كافيتا كولكارني، روكي صن، سياماك. شاكيري، لوهينج هي، بن كين، ألبرت ويبسون، ناتاشا لاتيشيفا، ملفين جونسون، فيليب مانسفيلد، جيان لو، إيهود ريفلين، يسبر أندرسون، برادلي جرين، رينيه وونغ، جوناثان كراوس، جوناثان شلينز، إيوا دومينوسكا، إس إم علي إسلامي، كاثرين تشو، كلير كوي، أوريول فينيالس، كوراي كافوكوجلو، جيمس مانيكا. ، جيف دين، ديميس هاسابيس، يوسي ماتياس، ديل ويبستر، جويل بارال، جريج كورادو، كريستوفر سيمتورس، س. سارة مهدوي، يوراج جوتوايس، آلان كارثيكسالينغام، فيفيك ناتاراجان. قدرات نماذج الجوزاء في الطب. أركايف، أبس/2404.18416.
Med-Gemini هي عائلة من النماذج متعددة الوسائط ذات القدرة العالية والمتخصصة في الطب مع القدرة على استخدام البحث على الويب بسلاسة، والتي يمكن تخصيصها بكفاءة لطرائق جديدة باستخدام برامج تشفير مخصصة. يحقق Med-Gemini بشكل خاص أداءً جديدًا متطورًا بدقة تصل إلى 91.1% وفقًا لمعيار MedQA (USMLE) الشهير. ومع ذلك، كجزء من هذا التقييم، لاحظنا أنه ليست كل الأسئلة في مجموعة اختبار MedQA معقولة ليتم تقييمها. لقد اشتبهنا في أن الأسئلة المختلفة تتضمن أخطاء في التسمية أو معلومات مرجعية مفقودة مثل الأرقام أو نتائج المختبر التي لم يتم تضمينها. من أجل الإبلاغ عن نتائج موثوقة، أجرينا بالتالي عملية إعادة تسمية كاملة لـ MedQA باستخدام ما لا يقل عن 3 أطباء رعاية أولية (PCPs) لكل سؤال، وطلب معلومات خاطئة وأخطاء في التسمية. يتضمن هذا المستودع البيانات المقابلة ورمز التحليل.
قم بتثبيت Conda باتباع التعليمات الرسمية. تأكد من إعادة تشغيل bash بعد التثبيت.
استنساخ هذا المستودع باستخدام
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
قم بإنشاء بيئة Conda جديدة من environment.yml
وقم بتنشيطها (يمكن إلغاء تنشيط البيئة في أي وقت باستخدام conda deactivate
):
conda env create -f environment.yml
conda activate medqa_relabelling
وبدلاً من ذلك، يمكنك تثبيت jupyter
و numpy
و pandas
و matplotlib
يدويًا.
تم اختبار هذه التعليمات باستخدام إصدار Conda 23.7.4 (وليس miniconda) على محطة عمل Linux 64 بت. نوصي بالتأكد من عدم تنشيط أي بيئات pyenv
متعارضة أو تعيين PATH
أو تغييره بشكل صريح في ملف تعريف bash المستخدم. بعد تنشيط بيئة Conda، يجب أن يكون ثنائي Python المقابل هو الأول في PATH
. إذا لم يكن الأمر كذلك (على سبيل المثال، يدرج PATH
تثبيت Python محليًا في ~/.local/
أولاً)، فقد يتسبب ذلك في حدوث مشكلات.
أسئلة MedQA مع شروحنا متاحة على medqa_relabelling.csv
ويمكن تحميلها بسهولة باستخدام Pandas:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
يحتوي ملف CSV على التقييمات الفردية كصفوف، مع الأعمدة التالية:
time
: وقت مهمة التعليق التوضيحي بالمللي ثانية؛worker_id
عامل مجهول؛qid
: معرف السؤال؛question
: سؤال MedQA؛A
إلى D
: خيارات الإجابة على MedQA؛answer_idx
: الإجابة الحقيقية لـ MedQA؛info_missing
و important_info_missing
: ما إذا كان المُقيّم قد أشار إلى أن المعلومات الموجودة في السؤال مفقودة وما إذا تم تصنيف هذه المعلومات على أنها مهمة للإجابة على السؤال؛blind_answerable
و seen_answerable
: ما إذا كان المقيِّم قد حدد أن واحدًا أو أكثر من الخيارات يجيب على السؤال قبل ( blind_
) وبعد ( seen_
) الكشف عن الإجابة الحقيقية على أرض الواقع؛blind_asnwers
و seen_answers
: الإجابات المحددة إذا كان السؤال قابلاً للإجابة؛seen_change
: ما إذا كان المُقيم قد قام بتحديث إجابته بعد الكشف عن الحقيقة على الأرض.يمكن العثور على تفاصيل حول تصميم الدراسة الدقيق في المقالة، الملحق ج.2.
قم بتشغيل medqa_analysis.ipynb
لإعادة إنتاج نتائجنا من الورقة باستخدام تنبؤات النماذج الوهمية. يمكنك استبدالها بتنبؤات النموذج الخاص بك لإعادة إنتاج الشكل 4ب في الورقة.
عند استخدام أي جزء من هذا المستودع، تأكد من الاستشهاد بالورقة على النحو التالي:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
جميع البرامج مرخصة بموجب ترخيص Apache، الإصدار 2.0 (Apache 2.0)؛ لا يجوز لك استخدام هذا الملف إلا وفقًا لترخيص Apache 2.0. يمكنك الحصول على نسخة من ترخيص Apache 2.0 على: https://www.apache.org/licenses/LICENSE-2.0
التعليقات التوضيحية المقدمة مرخصة بموجب ترخيص Creative Commons Attribution 4.0 International License (CC-BY). يمكنك الحصول على نسخة من ترخيص CC-BY على: https://creativecommons.org/licenses/by/4.0/legalcode
ما لم يكن ذلك مطلوبًا بموجب القانون المعمول به أو تم الاتفاق عليه كتابيًا، يتم توزيع جميع البرامج والمواد الموزعة هنا بموجب تراخيص Apache 2.0 أو CC-BY على أساس "كما هي"، دون ضمانات أو شروط من أي نوع، سواء كانت صريحة أو ضمنية. راجع تراخيص اللغة المحددة التي تحكم الأذونات والقيود بموجب تلك التراخيص.
هذا ليس أحد منتجات Google الرسمية.
يمكن العثور على ترخيص أسئلة MedQA الأصلية في jind11/MedQA.