Этот репозиторий содержит данные и код, соответствующие изменению маркировки MedQA, выполненному в рамках [1], специально для результатов на рисунке 4b и приложении C.2.
[1] Халед Сааб, Тао Ту, Вэй-Хунг Венг, Рьютаро Танно, Дэвид Стутц, Эллери Вульчин, Фань Чжан, Тим Стротер, Чунджонг Пак, Элахе Ведади, Хуанма Самбрано Чавес, Су-Ю Ху, Майк Шекерманн, Айшвария Камат, Йонг Ченг, Дэвид Г.Т. Барретт, Кэти Чунг, Бэзил Мустафа, Анил Палепу, Дэниэл Макдафф, Ле Хоу, Томер Голани, Луян Лю, Жан-Батист Алайрак, Нил Хоулсби, Ненад Томасев, Ян Фрейберг, Чарльз Лау, Йонас Кемп, Джереми Лай, Шекуфе Азизи, Кимберли Канада, СиВай Ман, Кавита Кулкарни, Руокси Сан, Сиамак Шакери, Лухэн Хе, Бен Кейн, Альберт Уэбсон, Наташа Латышева, Мелвин Джонсон, Филип Мэнсфилд, Цзян Лу, Эхуд Ривлин, Джеспер Андерсон, Брэдли Грин, Рене Вонг, Джонатан Краузе, Джонатон Шленс, Ева Доминовска, СМ Али Эслами, Кэтрин Чоу, Клэр Кюи, Ориол Виньялс, Корай Кавукчуоглу , Джеймс Маньика, Джефф Дин, Демис Хассабис, Йосси Матиас, Дейл Вебстер, Джоэль Баррал, Грег Коррадо, Кристофер Семтурс, С. Сара Махдави, Юрай Готвайс, Алан Картикесалингам, Вивек Натараджан. Возможности моделей Gemini в медицине. ArXiv, абс/2404.18416.
Med-Gemini — это семейство высокофункциональных мультимодальных моделей, специализирующихся на медицине, с возможностью беспрепятственного использования веб-поиска и которые можно эффективно адаптировать к новым модальностям с помощью специальных кодировщиков. Med-Gemini, в частности, достигает новых современных показателей точности 91,1% по популярному тесту MedQA (USMLE). Однако в рамках этой оценки мы заметили, что не все вопросы в наборе тестов MedQA подходят для оценки. Мы подозревали, что различные вопросы включают ошибки в этикетках или ссылки на недостающую информацию, например цифры или результаты лабораторных исследований, которые не включены. Чтобы сообщить о надежных результатах, мы провели полную перемаркировку MedQA, используя как минимум 3 врачей первичной медико-санитарной помощи (PCP) на каждый вопрос, запрашивая недостающую информацию и ошибки в маркировке. Этот репозиторий включает соответствующие данные и код анализа.
Установите Conda, следуя официальным инструкциям. Обязательно перезапустите bash после установки.
Клонируйте этот репозиторий, используя
git clone https://github.com/google-health/med-gemini-medqa-relabelling
cd med-gemini-medqa-relabelling
Создайте новую среду Conda из environment.yml
и активируйте ее (среду можно деактивировать в любое время с помощью conda deactivate
):
conda env create -f environment.yml
conda activate medqa_relabelling
Альтернативно, вручную установите jupyter
, numpy
, pandas
и matplotlib
.
Эти инструкции были протестированы с версией Conda 23.7.4 (не miniconda) на 64-битной рабочей станции Linux. Мы рекомендуем убедиться, что никакие конфликтующие среды pyenv
не активированы, а PATH
явно задан или изменен в используемом профиле bash. После активации среды Conda соответствующий двоичный файл Python должен быть первым в PATH
. Если это не так (например, PATH
сначала указывает локальную установку Python в ~/.local/
), это может вызвать проблемы.
Вопросы MedQA с нашими аннотациями доступны в medqa_relabelling.csv
и могут быть легко загружены с помощью Pandas:
input_file = 'medqa_relabelling.csv'
with open(input_file, 'r') as f:
df = pd.read_csv(f)
df.head()
CSV-файл содержит отдельные рейтинги в виде строк со следующими столбцами:
time
: время выполнения задачи аннотации в миллисекундах;worker_id
— идентификатор анонимного работника;qid
: идентификатор вопроса;question
: вопрос MedQA;A
до D
: варианты ответов MedQA;answer_idx
: основной ответ MedQA;info_missing
и important_info_missing
: указал ли оценщик, что информация в вопросе отсутствует, и была ли эта информация оценена как важная для ответа на вопрос;blind_answerable
и seen_answerable
: определил ли оценщик, что один или несколько вариантов отвечают на вопрос до ( blind_
) и после ( seen_
) раскрытия основного истинного ответа;blind_asnwers
и seen_answers
: выбранные ответы, если на вопрос можно ответить;seen_change
: обновил ли оценщик свой ответ после раскрытия основной истины.Подробную информацию о точном дизайне исследования можно найти в документе, Приложение C.2.
Запустите medqa_analysis.ipynb
, чтобы воспроизвести результаты из статьи, используя предсказания фиктивной модели. Вы можете заменить их предсказаниями вашей модели, чтобы воспроизвести рисунок 4b в статье.
При использовании любой части этого репозитория обязательно цитируйте статью следующим образом:
@article{Saab2024CapabilitiesOG,
title={Capabilities of Gemini Models in Medicine},
author={Khaled Saab and Tao Tu and Wei-Hung Weng and Ryutaro Tanno and David Stutz and Ellery Wulczyn and Fan Zhang and Tim Strother and Chunjong Park and Elahe Vedadi and Juanma Zambrano Chaves and Szu-Yeu Hu and Mike Schaekermann and Aishwarya B Kamath and Yong Cheng and David G.T. Barrett and Cathy Cheung and Basil Mustafa and Anil Palepu and Daniel McDuff and Le Hou and Tomer Golany and Lu Liu and Jean-Baptiste Alayrac and Neil Houlsby and Nenad Toma{vs}ev and Jan Freyberg and Charles Lau and Jonas Kemp and Jeremy Lai and Shekoofeh Azizi and Kimberly Kanada and SiWai Man and Kavita Kulkarni and Ruoxi Sun and Siamak Shakeri and Luheng He and Ben Caine and Albert Webson and Natasha Latysheva and Melvin Johnson and Philip Mansfield and Jian Lu and Ehud Rivlin and Jesper Anderson and Bradley Green and Renee Wong and Jonathan Krause and Jonathon Shlens and Ewa Dominowska and S. M. Ali Eslami and Claire Cui and Oriol Vinyals and Koray Kavukcuoglu and James Manyika and Jeff Dean and Demis Hassabis and Yossi Matias and Dale R. Webster and Joelle Barral and Gregory S. Corrado and Christopher Semturs and S. Sara Mahdavi and Juraj Gottweis and Alan Karthikesalingam and Vivek Natarajan},
journal={ArXiv},
volume={abs/2404.18416},
year={2024},
}
Все программное обеспечение лицензируется по лицензии Apache версии 2.0 (Apache 2.0); вы не можете использовать этот файл, кроме как в соответствии с лицензией Apache 2.0. Вы можете получить копию лицензии Apache 2.0 по адресу: https://www.apache.org/licenses/LICENSE-2.0.
Предоставленные аннотации доступны под лицензией Creative Commons Attribution 4.0 International License (CC-BY). Вы можете получить копию лицензии CC-BY по адресу: https://creativecommons.org/licenses/by/4.0/legalcode.
Если это не требуется действующим законодательством или не согласовано в письменной форме, все программное обеспечение и материалы, распространяемые здесь по лицензиям Apache 2.0 или CC-BY, распространяются на условиях «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ИЛИ УСЛОВИЙ, явных или подразумеваемых. См. лицензии на конкретных языках, регулирующих разрешения и ограничения в рамках этих лицензий.
Это не официальный продукт Google.
Лицензию на оригинальные вопросы MedQA можно найти в jind11/MedQA.