พื้นที่เก็บข้อมูลนี้มีข้อมูลและรหัสที่เกี่ยวข้องกับการติดฉลาก MedQA ใหม่ซึ่งดำเนินการเป็นส่วนหนึ่งของ [1] โดยเฉพาะสำหรับผลลัพธ์ในรูปที่ 4b และภาคผนวก C.2
1 คาเล็ด ซาบ, เทา ตู่, เว่ย-ฮุง เวง, ริวทาโร่ ทันโน, เดวิด สตุตซ์, เอลเลรี วูลซิน, ฟ่าน จาง, ทิม สโตรเธอร์, ชุนจง พาร์ค, เอลาเฮ่ เวดาดี, ฮวนมา ซัมบราโน ชาเวส, ซซู-เยว่ หู, ไมค์ แชเกอร์มันน์, ไอชวาร์ยา คามัธ, ยง เฉิง, เดวิด จีที บาร์เร็ตต์, เคธี่ เฉิง, บาซิล มุสตาฟา, อานิล ปาเลปู, แดเนียล แมคดัฟฟ์, เลอ Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, สยามัค ชาเครี, ลู่เหิง เขา, เบน เคน, อัลเบิร์ต เว็บสัน, นาตาชา ลาตีเชวา, เมลวิน จอห์นสัน, ฟิลิป แมนสฟิลด์, เจียน ลู, เอฮุด ริฟลิน, เจสเปอร์ แอนเดอร์สัน, แบรดลีย์ กรีน, เรนี หว่อง, โจนาธาน เคราส์, โจนาธาน ชเลนส์, เอวา โดมินอฟสกา, เอสเอ็ม อาลี เอสลามี, แคทเธอรีน โชว, แคลร์ ชุย, โอริโอล วินยาลส์, โคเรย์ คาวัคคูโอกลู, เจมส์ มันนิกา, เจฟฟ์ ดีน, เดมิส ฮาสซาบิส, ยอสซี่ มาเทียส, เดล เว็บสเตอร์, โจแอล บาร์รัล, เกร็ก คอร์ราโด, คริสโตเฟอร์ เซมทัวร์ส, เอส. ซารา มาห์ดาวี, จูราช ก็อตต์ไวส์, อลัน คาร์ธิเกซาลิงกัม, วิเวก นาทาราจัน ความสามารถของแบบจำลองราศีเมถุนในการแพทย์ ArXiv, เอบีเอส/2404.18416.
Med-Gemini คือกลุ่มผลิตภัณฑ์โมเดลต่อเนื่องหลายรูปแบบที่มีความสามารถสูง ซึ่งเชี่ยวชาญด้านการแพทย์ โดยมีความสามารถในการค้นหาเว็บได้อย่างราบรื่น และสามารถปรับให้เข้ากับรูปแบบใหม่ๆ ได้อย่างมีประสิทธิภาพโดยใช้ตัวเข้ารหัสแบบกำหนดเอง Med-Gemini บรรลุประสิทธิภาพที่ล้ำสมัยเป็นพิเศษด้วยความแม่นยำ 91.1% บนเกณฑ์มาตรฐาน MedQA (USMLE) ยอดนิยม อย่างไรก็ตาม ในการประเมินนี้ เราพบว่าคำถามบางข้อในชุดการทดสอบ MedQA อาจไม่เหมาะสมที่จะประเมิน เราสงสัยว่าคำถามต่างๆ รวมถึงข้อผิดพลาดของฉลากหรือการอ้างอิงข้อมูลที่ขาดหายไป เช่น ตัวเลขหรือผลการตรวจทางห้องปฏิบัติการที่ไม่ได้รวมอยู่ด้วย เพื่อที่จะรายงานผลลัพธ์ที่เชื่อถือได้ เราจึงดำเนินการติดฉลาก MedQA ใหม่ทั้งหมดโดยใช้แพทย์ปฐมภูมิ (PCP) อย่างน้อย 3 คนต่อคำถาม โดยสอบถามข้อมูลที่ไม่ถูกต้องและข้อผิดพลาดของฉลาก พื้นที่เก็บข้อมูลนี้มีข้อมูลที่เกี่ยวข้องและรหัสการวิเคราะห์
ติดตั้ง Conda ตามคำแนะนำอย่างเป็นทางการ ตรวจสอบให้แน่ใจว่าได้รีสตาร์ท bash หลังการติดตั้ง
โคลนที่เก็บนี้โดยใช้
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
สร้างสภาพแวดล้อม Conda ใหม่จาก environment.yml
และเปิดใช้งาน (สามารถปิดการใช้งานสภาพแวดล้อมได้ตลอดเวลาโดยใช้ conda deactivate
):
conda env create -f environment.yml
conda activate medqa_relabelling
หรือติดตั้ง jupyter
, numpy
, pandas
และ matplotlib
ด้วยตนเอง
คำแนะนำเหล่านี้ได้รับการทดสอบกับ Conda เวอร์ชัน 23.7.4 (ไม่ใช่ miniconda) บนเวิร์กสเตชัน Linux 64 บิต เราขอแนะนำให้ตรวจสอบให้แน่ใจว่าไม่มีการเปิดใช้งานสภาพแวดล้อม pyenv
ที่ขัดแย้งกัน หรือมีการตั้งค่าหรือเปลี่ยนแปลง PATH
อย่างชัดเจนในโปรไฟล์ bash ที่ใช้ หลังจากเปิดใช้งานสภาพแวดล้อม Conda แล้ว ไบนารี Python ที่เกี่ยวข้องควรอยู่ใน PATH
ก่อน หากไม่เป็นเช่นนั้น (เช่น PATH
แสดงรายการการติดตั้ง Python ในเครื่องใน ~/.local/
ก่อน) สิ่งนี้อาจทำให้เกิดปัญหาได้
คำถาม MedQA พร้อมคำอธิบายประกอบของเรามีอยู่ใน medqa_relabelling.csv
และสามารถโหลดได้อย่างง่ายดายโดยใช้ Pandas:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
ไฟล์ CSV มีการให้คะแนนแต่ละรายการเป็นแถว โดยมีคอลัมน์ต่อไปนี้
time
: เวลาสำหรับงานคำอธิบายประกอบในหน่วยมิลลิวินาทีworker_id
รหัสพนักงานที่ไม่ระบุตัวตนqid
: รหัสคำถาม;question
: คำถาม MedQA;A
ถึง D
: ตัวเลือกคำตอบของ MedQAanswer_idx
: คำตอบตามความจริงของ MedQAinfo_missing
และ important_info_missing
: ผู้ประเมินระบุว่าข้อมูลในคำถามนั้นขาดหายไปหรือไม่ และข้อมูลนี้ได้รับการจัดอันดับว่าสำคัญในการตอบคำถามหรือไม่blind_answerable
และ seen_answerable
: ไม่ว่าผู้ประเมินจะพิจารณาว่าตัวเลือกหนึ่งหรือหลายตัวเลือกตอบคำถามก่อน ( blind_
) และหลัง ( seen_
) เปิดเผยคำตอบความจริงภาคพื้นดิน;blind_asnwers
และ seen_answers
: คำตอบที่เลือกหากคำถามสามารถตอบได้;seen_change
: ผู้ประเมินได้อัปเดตคำตอบของตนหรือไม่หลังจากเปิดเผยความจริงภาคพื้นดินรายละเอียดเกี่ยวกับการออกแบบการศึกษาที่แน่นอนสามารถพบได้ในรายงานภาคผนวก C.2
เรียกใช้ medqa_analysis.ipynb
เพื่อสร้างผลลัพธ์ของเราใหม่จากรายงานโดยใช้การคาดการณ์แบบจำลองจำลอง คุณสามารถแทนที่ด้วยการคาดการณ์ของแบบจำลองของคุณเพื่อสร้างรูปที่ 4b ในรายงาน
เมื่อใช้ส่วนใดส่วนหนึ่งของพื้นที่เก็บข้อมูลนี้ อย่าลืมอ้างอิงเอกสารดังต่อไปนี้:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
ซอฟต์แวร์ทั้งหมดได้รับอนุญาตภายใต้ Apache License เวอร์ชัน 2.0 (Apache 2.0) คุณไม่สามารถใช้ไฟล์นี้ได้เว้นแต่จะเป็นไปตามใบอนุญาต Apache 2.0 คุณสามารถขอรับสำเนาใบอนุญาต Apache 2.0 ได้ที่: https://www.apache.org/licenses/LICENSE-2.0
คำอธิบายประกอบที่ให้ไว้ได้รับอนุญาตภายใต้ Creative Commons Attribution 4.0 International License (CC-BY) คุณสามารถขอรับสำเนาใบอนุญาต CC-BY ได้ที่: https://creativecommons.org/licenses/by/4.0/legalcode
เว้นแต่กฎหมายที่บังคับใช้กำหนดไว้หรือตกลงเป็นลายลักษณ์อักษร ซอฟต์แวร์และเนื้อหาทั้งหมดที่เผยแพร่ที่นี่ภายใต้ใบอนุญาต Apache 2.0 หรือ CC-BY ได้รับการเผยแพร่ตาม "สภาพที่เป็นอยู่" โดยไม่มีการรับประกันหรือเงื่อนไขใดๆ ทั้งโดยชัดแจ้งหรือโดยนัย ดูใบอนุญาตสำหรับภาษาเฉพาะที่ควบคุมการอนุญาตและข้อจำกัดภายใต้ใบอนุญาตเหล่านั้น
นี่ไม่ใช่ผลิตภัณฑ์อย่างเป็นทางการของ Google
ใบอนุญาตสำหรับคำถาม MedQA ดั้งเดิมมีอยู่ใน jind11/MedQA