Загрузка TDC - Загрузка исходного кода TDC

TDC

AI Исходный код

1.0.0

Скачать

Искусственный интеллект готов изменить терапевтическую науку. Therapeutics Data Commons — это скоординированная инициатива по доступу и оценке возможностей искусственного интеллекта на всех терапевтических методах и стадиях открытия. Он поддерживает разработку методов искусственного интеллекта и стремится установить, какие методы искусственного интеллекта наиболее подходят для применения в разработке лекарств и почему.

Исследователи разных дисциплин могут использовать TDC для множества приложений. Задачи, решаемые искусственным интеллектом, готовые к использованию наборы данных и тщательно подобранные тесты в TDC служат местом встречи ученых-биохимиков и ученых, занимающихся искусственным интеллектом. TDC способствует алгоритмическим и научным достижениям, а также ускоряет разработку, проверку и переход к биомедицинской и клинической реализации методов машинного обучения.

TDC — это инициатива открытой науки. Мы приветствуем вклад сообщества.

Ключевые презентации и публикации TDC

[1] Велес-Арсе, Хуанг, Ли, Линь и др., TDC-2: Мультимодальный фонд терапевтической науки, bioRxiv, 2024 [Документ]

[2] Хуан, Фу, Гао и др., Фонд искусственного интеллекта для терапевтической науки, Nature Chemical Biology, 2022 г. [документ]

[3] Хуан, Фу, Гао и др., Therapeutics Data Commons: наборы данных машинного обучения и задачи по открытию и разработке лекарств, NeurIPS 2021 [Документ] [Плакат]

[4] Хуанг и др., Сравнительный анализ молекулярного машинного обучения в терапевтических данных Commons, ELLIS ML4Molecules 2021 [Документ] [Слайды]

[5] Хуанг и др., Therapeutics Data Commons: наборы данных машинного обучения и задачи по открытию и разработке лекарств, Baylearn 2021 [Слайды] [Плакат]

[6] Хуан, Фу, Гао и др., Therapeutics Data Commons, Гарвардский симпозиум NSF по лекарствам для будущих пандемий 2020 г. [#futuretx20] [Слайды] [Видео]

[7] Встреча группы пользователей TDC, январь 2022 г. [Повестка дня]

[8] Зитник, Сессия «Машинное обучение для трансляции генома и эпигенома рака», Ежегодное собрание AACR 2022 г., апрель 2022 г.

[9] Зитник, «Обучение за несколько шагов для сетевой биологии», основной доклад на семинаре KDD по интеллектуальному анализу данных в биоинформатике.

[10] Зитник, Действенное машинное обучение для открытия и разработки лекарств, Институт Броуда, Семинар по моделям, выводам и алгоритмам, 2021 г.

[11] Зитник, Графовые нейронные сети для биомедицинских данных, Машинное обучение в вычислительной биологии, 2020.

[12] Зитник, Графовые нейронные сети для выявления возможностей повторного использования лекарств от COVID-19, MIT AI Cures, 2020.

Уникальные особенности TDC

Разнообразные области разработки терапевтических средств : TDC охватывает широкий спектр задач обучения, включая обнаружение мишеней, проверку активности, эффективность, безопасность и производство биомедицинских продуктов, включая малые молекулы, антитела и вакцины.
Готовые к использованию наборы данных : TDC минимально зависит от внешних пакетов. Любой набор данных TDC можно получить, используя всего три строки кода.
Функции данных : TDC предоставляет обширные функции обработки данных, включая средства оценки данных, значимое разделение данных, процессоры данных и оракулы генерации молекул.
Таблицы лидеров : TDC предоставляет критерии для справедливого сравнения моделей, а также систематической разработки и оценки моделей.
Инициатива с открытым исходным кодом : TDC — это инициатива с открытым исходным кодом. Если вы хотите принять участие, пожалуйста, не стесняйтесь, дайте нам знать.

Здесь вы найдете последние обновления TDC!

Установка

Использование `pip`

Чтобы установить зависимости основной среды TDC, используйте pip :

pip install PyTDC

Примечание . TDC находится в бета-версии. Пожалуйста, регулярно обновляйте локальную копию,

pip install PyTDC --upgrade

Основные загрузчики данных легкие и минимально зависят от внешних пакетов:

numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn

Учебники

Мы предоставляем учебные пособия по началу работы с TDC:

Имя	Описание
101	Представляем загрузчики данных TDC
102	Знакомство с функциями данных TDC
103,1	Прогулка по наборам данных TDC по малым молекулам
103,2	Прогулка по наборам данных TDC Biologics
104	Создайте 21 предиктор ADME ML с помощью 15 строк кода
105	Оракулы генерации молекул
106	Отправка эталонного теста
ДГЛ	Демонстрация представлена на собрании группы пользователей DGL GNN
У1.1	Демо представлено на первой встрече группы пользователей TDC
У1.2	Демо представлено на первой встрече группы пользователей TDC
201	Ресурс TDC-2 и мультимодальный API для одной ячейки
202	ТДЦ-2 Ресурс и ПраймКГ
203	Ресурс TDC-2 и внешние API
204	Модельный концентратор TDC-2
205	Задача прогнозирования скалолазания молекулярных свойств TDC-2

Проектирование ТДЦ

TDC имеет уникальную трехуровневую иерархическую структуру, которая, насколько нам известно, является первой попыткой систематической организации машинного обучения в терапии. Мы разделяем TDC на три отдельные проблемы . По каждой проблеме мы предоставляем набор обучающих задач . Наконец, для каждой задачи мы предоставляем серию наборов данных .

На первом уровне, после рассмотрения большого набора терапевтических задач, мы классифицируем и абстрагируем три основные области (т. е. проблемы), в которых машинное обучение может способствовать научным достижениям, а именно прогнозирование одного экземпляра, прогнозирование нескольких экземпляров и генерация:

Одноэкземплярное предсказание single_pred : предсказание свойства отдельного биомедицинского объекта.
Многоэкземплярное предсказание multi_pred : предсказание свойства с учетом нескольких биомедицинских объектов.
generation поколения: Генерация новых желаемых биомедицинских объектов.

Второй уровень структуры TDC организован в виде учебных задач. Улучшение этих задач может привести к многочисленным приложениям, включая определение персонализированной комбинаторной терапии, разработку новых классов антител, улучшение диагностики заболеваний и поиск новых методов лечения новых заболеваний.

Наконец, на третьем уровне TDC каждая задача создается с помощью нескольких наборов данных. Для каждого набора данных мы предоставляем несколько разделений на обучающие, проверочные и тестовые наборы, чтобы имитировать тип понимания и обобщения (например, способность модели обобщать полностью невидимые соединения или детально определять реакцию пациента на политерапию), необходимые для перехода к производство и клиническое внедрение.

Загрузчики данных TDC

TDC предоставляет набор рабочих процессов с интуитивно понятными API-интерфейсами высокого уровня как для новичков, так и для экспертов для создания моделей машинного обучения на Python. Опираясь на модульную структуру «Проблема — Задача обучения — Набор данных» (см. выше) в TDC, мы предоставляем трехуровневый API для доступа к любой задаче обучения и набору данных. Этот иерархический дизайн API позволяет нам легко включать новые задачи и наборы данных.

В качестве конкретного примера, чтобы получить набор данных HIA из задачи терапевтического обучения ADME в задаче прогнозирования одного экземпляра:

 from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )

Вы можете просмотреть все наборы данных, принадлежащие задаче, следующим образом:

 from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )

Все терапевтические задачи и наборы данных смотрите на сайте TDC!

Функции данных TDC

Разделение набора данных

Чтобы получить разделение набора данных обучения/проверки/тестирования, вы можете ввести

 data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}

Вы можете указать метод разделения функции, случайное начальное число и дробные дроби, например, data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2]) . Подробную информацию можно найти на разделенной странице данных.

Стратегии оценки модели

Мы предоставляем различные метрики оценки для задач в TDC, описанные на странице оценки модели на сайте. Например, чтобы использовать метрику ROC-AUC, вы можете ввести

 from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )

Обработка данных

TDC предоставляет многочисленные функции обработки данных, включая преобразование меток, балансировку данных, сопоставление данных с графиками PyG/DGL, отрицательную выборку, запросы к базе данных и т. д. Информацию об использовании функций см. на нашей странице обработки данных на веб-сайте TDC.

Оракулы поколения молекул

Для задач генерации молекул мы предоставляем более 10 оракулов как для целенаправленного, так и для распределенного обучения. Подробную информацию об использовании каждого оракула можно найти на странице оракула на веб-сайте. Например, мы хотим получить оракул GSK3Beta:

 from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....' 
  'C[C@@H]1....' ,
  'CCNC(=O)....' , 
  'C[C@@H]1....' ])

# [0.03, 0.02, 0.0, 0.1]

Таблицы лидеров TDC

Каждый набор данных в TDC является эталоном, и мы предоставляем для него наборы данных для обучения/проверки и тестирования, а также разделение данных и показатели оценки производительности. Чтобы принять участие в таблице лидеров по определенному тесту, выполните следующие действия:

Используйте загрузчик эталонных данных TDC для получения эталонных данных.
Используйте набор для обучения и/или проверки для обучения вашей модели.
Используйте оценщик модели TDC, чтобы рассчитать производительность вашей модели на тестовом наборе.
Отправьте результаты тестового набора в таблицу лидеров TDC.

Поскольку многие наборы данных имеют общую терапевтическую тему, мы организуем контрольные показатели в осмысленно определенные группы, которые мы называем контрольными группами. Наборы данных и задачи в группе тестов тщательно контролируются и сосредоточены вокруг темы (например, TDC содержит группу тестов для поддержки прогнозов ML свойств ADMET). Хотя каждая группа тестов состоит из нескольких тестов, можно подавать результаты по каждому тесту отдельно. Вот структура кода для доступа к тестам:

 from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []

for seed in [ 1 , 2 , 3 , 4 , 5 ]:
    benchmark = group . get ( 'Caco2_Wang' ) 
    # all benchmark names in a benchmark group are stored in group.dataset_names
    predictions = {}
    name = benchmark [ 'name' ]
    train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
    train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
    
        # --------------------------------------------- # 
        #  Train your model using train, valid, test    #
        #  Save test prediction in y_pred_test variable #
        # --------------------------------------------- #
        
    predictions [ name ] = y_pred_test
    predictions_list . append ( predictions )

results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}

Для получения дополнительной информации посетите здесь.

Цитируйте нас

Если вы находите Therapeutics Data Commons полезными, процитируйте нашу статью NeurIPS'24 AIDrugX, нашу статью NeurIPS и статью Nature Chemical Biology:

 @inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}

 @article{Huang2021tdc,
  title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
  year={2021}
}

 @article{Huang2022artificial,
  title={Artificial intelligence foundation for therapeutic science},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Nature Chemical Biology},
  year={2022}
}

TDC построен на основе других проектов с открытым исходным кодом. Кроме того, пожалуйста, укажите оригинальную работу, если вы использовали эти наборы данных/функции в своем исследовании. Вы можете найти оригинальную статью для функции/набора данных на веб-сайте.

Способствовать

TDC — это общественная и открытая научная инициатива. Чтобы принять участие, присоединяйтесь к нашему рабочему пространству Slack и ознакомьтесь с руководством по участию!

Контакт

Свяжитесь с нами по адресу [email protected] или откройте проблему на GitHub.

Сервер данных

Многие наборы данных TDC размещены в Harvard Dataverse со следующим постоянным идентификатором https://doi.org/10.7910/DVN/21LKWG. Когда Dataverse находится на обслуживании, наборы данных TDC не могут быть получены. Это случается редко; пожалуйста, проверьте статус на веб-сайте Dataverse.

Лицензия

Кодовая база TDC лицензируется по лицензии MIT. Для индивидуального использования набора данных см. лицензию на набор данных на веб-сайте.

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-01-27
размер 5.05MB
От Github

Связанные приложения

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

TDC

Ключевые презентации и публикации TDC

Уникальные особенности TDC

Установка

Использование `pip`

Учебники

Проектирование ТДЦ

Загрузчики данных TDC

Функции данных TDC

Разделение набора данных

Стратегии оценки модели

Обработка данных

Оракулы поколения молекул

Таблицы лидеров TDC

Цитируйте нас

Способствовать

Контакт

Сервер данных

Лицензия

node telegram bot api

typebot.io

python wechaty getting started

TranscriberBot

genal chat

Facemoji

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

TDC

Ключевые презентации и публикации TDC

Уникальные особенности TDC

Установка

Использование pip

Учебники

Проектирование ТДЦ

Загрузчики данных TDC

Функции данных TDC

Разделение набора данных

Стратегии оценки модели

Обработка данных

Оракулы поколения молекул

Таблицы лидеров TDC

Цитируйте нас

Способствовать

Контакт

Сервер данных

Лицензия

Использование `pip`