Веб-сайт | Бумага NeurIPS 2024 AIDrugX | Природа Химическая Биология 2022 Бумага | Бумага NeurIPS 2021 | Длинная бумага | слабина | Список рассылки TDC | Документация TDC | Рекомендации по внесению взносов
Искусственный интеллект готов изменить терапевтическую науку. Therapeutics Data Commons — это скоординированная инициатива по доступу и оценке возможностей искусственного интеллекта на всех терапевтических методах и стадиях открытия. Он поддерживает разработку методов искусственного интеллекта и стремится установить, какие методы искусственного интеллекта наиболее подходят для применения в разработке лекарств и почему.
Исследователи разных дисциплин могут использовать TDC для множества приложений. Задачи, решаемые искусственным интеллектом, готовые к использованию наборы данных и тщательно подобранные тесты в TDC служат местом встречи ученых-биохимиков и ученых, занимающихся искусственным интеллектом. TDC способствует алгоритмическим и научным достижениям, а также ускоряет разработку, проверку и переход к биомедицинской и клинической реализации методов машинного обучения.
TDC — это инициатива открытой науки. Мы приветствуем вклад сообщества.
[1] Велес-Арсе, Хуанг, Ли, Линь и др., TDC-2: Мультимодальный фонд терапевтической науки, bioRxiv, 2024 [Документ]
[2] Хуан, Фу, Гао и др., Фонд искусственного интеллекта для терапевтической науки, Nature Chemical Biology, 2022 г. [документ]
[3] Хуан, Фу, Гао и др., Therapeutics Data Commons: наборы данных машинного обучения и задачи по открытию и разработке лекарств, NeurIPS 2021 [Документ] [Плакат]
[4] Хуанг и др., Сравнительный анализ молекулярного машинного обучения в терапевтических данных Commons, ELLIS ML4Molecules 2021 [Документ] [Слайды]
[5] Хуанг и др., Therapeutics Data Commons: наборы данных машинного обучения и задачи по открытию и разработке лекарств, Baylearn 2021 [Слайды] [Плакат]
[6] Хуан, Фу, Гао и др., Therapeutics Data Commons, Гарвардский симпозиум NSF по лекарствам для будущих пандемий 2020 г. [#futuretx20] [Слайды] [Видео]
[7] Встреча группы пользователей TDC, январь 2022 г. [Повестка дня]
[8] Зитник, Сессия «Машинное обучение для трансляции генома и эпигенома рака», Ежегодное собрание AACR 2022 г., апрель 2022 г.
[9] Зитник, «Обучение за несколько шагов для сетевой биологии», основной доклад на семинаре KDD по интеллектуальному анализу данных в биоинформатике.
[10] Зитник, Действенное машинное обучение для открытия и разработки лекарств, Институт Броуда, Семинар по моделям, выводам и алгоритмам, 2021 г.
[11] Зитник, Графовые нейронные сети для биомедицинских данных, Машинное обучение в вычислительной биологии, 2020.
[12] Зитник, Графовые нейронные сети для выявления возможностей повторного использования лекарств от COVID-19, MIT AI Cures, 2020.
Здесь вы найдете последние обновления TDC!
pip
Чтобы установить зависимости основной среды TDC, используйте pip
:
pip install PyTDC
Примечание . TDC находится в бета-версии. Пожалуйста, регулярно обновляйте локальную копию,
pip install PyTDC --upgrade
Основные загрузчики данных легкие и минимально зависят от внешних пакетов:
numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn
Мы предоставляем учебные пособия по началу работы с TDC:
Имя | Описание |
---|---|
101 | Представляем загрузчики данных TDC |
102 | Знакомство с функциями данных TDC |
103,1 | Прогулка по наборам данных TDC по малым молекулам |
103,2 | Прогулка по наборам данных TDC Biologics |
104 | Создайте 21 предиктор ADME ML с помощью 15 строк кода |
105 | Оракулы генерации молекул |
106 | Отправка эталонного теста |
ДГЛ | Демонстрация представлена на собрании группы пользователей DGL GNN |
У1.1 | Демо представлено на первой встрече группы пользователей TDC |
У1.2 | Демо представлено на первой встрече группы пользователей TDC |
201 | Ресурс TDC-2 и мультимодальный API для одной ячейки |
202 | ТДЦ-2 Ресурс и ПраймКГ |
203 | Ресурс TDC-2 и внешние API |
204 | Модельный концентратор TDC-2 |
205 | Задача прогнозирования скалолазания молекулярных свойств TDC-2 |
TDC имеет уникальную трехуровневую иерархическую структуру, которая, насколько нам известно, является первой попыткой систематической организации машинного обучения в терапии. Мы разделяем TDC на три отдельные проблемы . По каждой проблеме мы предоставляем набор обучающих задач . Наконец, для каждой задачи мы предоставляем серию наборов данных .
На первом уровне, после рассмотрения большого набора терапевтических задач, мы классифицируем и абстрагируем три основные области (т. е. проблемы), в которых машинное обучение может способствовать научным достижениям, а именно прогнозирование одного экземпляра, прогнозирование нескольких экземпляров и генерация:
single_pred
: предсказание свойства отдельного биомедицинского объекта.multi_pred
: предсказание свойства с учетом нескольких биомедицинских объектов.generation
поколения: Генерация новых желаемых биомедицинских объектов.Второй уровень структуры TDC организован в виде учебных задач. Улучшение этих задач может привести к многочисленным приложениям, включая определение персонализированной комбинаторной терапии, разработку новых классов антител, улучшение диагностики заболеваний и поиск новых методов лечения новых заболеваний.
Наконец, на третьем уровне TDC каждая задача создается с помощью нескольких наборов данных. Для каждого набора данных мы предоставляем несколько разделений на обучающие, проверочные и тестовые наборы, чтобы имитировать тип понимания и обобщения (например, способность модели обобщать полностью невидимые соединения или детально определять реакцию пациента на политерапию), необходимые для перехода к производство и клиническое внедрение.
TDC предоставляет набор рабочих процессов с интуитивно понятными API-интерфейсами высокого уровня как для новичков, так и для экспертов для создания моделей машинного обучения на Python. Опираясь на модульную структуру «Проблема — Задача обучения — Набор данных» (см. выше) в TDC, мы предоставляем трехуровневый API для доступа к любой задаче обучения и набору данных. Этот иерархический дизайн API позволяет нам легко включать новые задачи и наборы данных.
В качестве конкретного примера, чтобы получить набор данных HIA из задачи терапевтического обучения ADME в задаче прогнозирования одного экземпляра:
from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )
Вы можете просмотреть все наборы данных, принадлежащие задаче, следующим образом:
from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )
Все терапевтические задачи и наборы данных смотрите на сайте TDC!
Чтобы получить разделение набора данных обучения/проверки/тестирования, вы можете ввести
data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}
Вы можете указать метод разделения функции, случайное начальное число и дробные дроби, например, data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])
. Подробную информацию можно найти на разделенной странице данных.
Мы предоставляем различные метрики оценки для задач в TDC, описанные на странице оценки модели на сайте. Например, чтобы использовать метрику ROC-AUC, вы можете ввести
from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )
TDC предоставляет многочисленные функции обработки данных, включая преобразование меток, балансировку данных, сопоставление данных с графиками PyG/DGL, отрицательную выборку, запросы к базе данных и т. д. Информацию об использовании функций см. на нашей странице обработки данных на веб-сайте TDC.
Для задач генерации молекул мы предоставляем более 10 оракулов как для целенаправленного, так и для распределенного обучения. Подробную информацию об использовании каждого оракула можно найти на странице оракула на веб-сайте. Например, мы хотим получить оракул GSK3Beta:
from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....'
'C[C@@H]1....' ,
'CCNC(=O)....' ,
'C[C@@H]1....' ])
# [0.03, 0.02, 0.0, 0.1]
Каждый набор данных в TDC является эталоном, и мы предоставляем для него наборы данных для обучения/проверки и тестирования, а также разделение данных и показатели оценки производительности. Чтобы принять участие в таблице лидеров по определенному тесту, выполните следующие действия:
Используйте загрузчик эталонных данных TDC для получения эталонных данных.
Используйте набор для обучения и/или проверки для обучения вашей модели.
Используйте оценщик модели TDC, чтобы рассчитать производительность вашей модели на тестовом наборе.
Отправьте результаты тестового набора в таблицу лидеров TDC.
Поскольку многие наборы данных имеют общую терапевтическую тему, мы организуем контрольные показатели в осмысленно определенные группы, которые мы называем контрольными группами. Наборы данных и задачи в группе тестов тщательно контролируются и сосредоточены вокруг темы (например, TDC содержит группу тестов для поддержки прогнозов ML свойств ADMET). Хотя каждая группа тестов состоит из нескольких тестов, можно подавать результаты по каждому тесту отдельно. Вот структура кода для доступа к тестам:
from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []
for seed in [ 1 , 2 , 3 , 4 , 5 ]:
benchmark = group . get ( 'Caco2_Wang' )
# all benchmark names in a benchmark group are stored in group.dataset_names
predictions = {}
name = benchmark [ 'name' ]
train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
# --------------------------------------------- #
# Train your model using train, valid, test #
# Save test prediction in y_pred_test variable #
# --------------------------------------------- #
predictions [ name ] = y_pred_test
predictions_list . append ( predictions )
results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}
Для получения дополнительной информации посетите здесь.
Если вы находите Therapeutics Data Commons полезными, процитируйте нашу статью NeurIPS'24 AIDrugX, нашу статью NeurIPS и статью Nature Chemical Biology:
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
@article{Huang2021tdc,
title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
year={2021}
}
@article{Huang2022artificial,
title={Artificial intelligence foundation for therapeutic science},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Nature Chemical Biology},
year={2022}
}
TDC построен на основе других проектов с открытым исходным кодом. Кроме того, пожалуйста, укажите оригинальную работу, если вы использовали эти наборы данных/функции в своем исследовании. Вы можете найти оригинальную статью для функции/набора данных на веб-сайте.
TDC — это общественная и открытая научная инициатива. Чтобы принять участие, присоединяйтесь к нашему рабочему пространству Slack и ознакомьтесь с руководством по участию!
Свяжитесь с нами по адресу [email protected] или откройте проблему на GitHub.
Многие наборы данных TDC размещены в Harvard Dataverse со следующим постоянным идентификатором https://doi.org/10.7910/DVN/21LKWG. Когда Dataverse находится на обслуживании, наборы данных TDC не могут быть получены. Это случается редко; пожалуйста, проверьте статус на веб-сайте Dataverse.
Кодовая база TDC лицензируется по лицензии MIT. Для индивидуального использования набора данных см. лицензию на набор данных на веб-сайте.