웹사이트 | NeurIPS 2024 AIDrugX 논문 | 자연 화학 생물학 2022 논문 | NeurIPS 2021 논문 | 긴 종이 | 슬랙 | TDC 메일링 리스트 | TDC 문서 | 기여 지침
인공지능은 치료 과학을 재편할 준비가 되어 있습니다. Therapeutics Data Commons는 치료 양식과 발견 단계 전반에 걸쳐 인공 지능 기능에 액세스하고 평가하기 위한 조정된 이니셔티브입니다. AI 방법 개발을 지원하고 어떤 AI 방법이 신약 발견 애플리케이션에 가장 적합한지, 그리고 그 이유에 대한 기반을 구축하는 것을 목표로 합니다.
다양한 분야의 연구자들은 다양한 애플리케이션에 TDC를 사용할 수 있습니다. TDC의 AI 해결 가능한 작업, AI 지원 데이터 세트 및 선별된 벤치마크는 생화학 과학자와 AI 과학자 간의 만남의 장소 역할을 합니다. TDC는 알고리즘 및 과학적 발전을 촉진하고 기계 학습 방법 개발, 검증 및 생물 의학 및 임상 구현으로의 전환을 가속화합니다.
TDC는 개방형 과학 이니셔티브입니다. 우리는 커뮤니티의 기여를 환영합니다.
[1] Velez-Arce, Huang, Li, Lin 등, TDC-2: 치료 과학을 위한 다중 모드 기반, bioRxiv, 2024 [논문]
[2] Huang, Fu, Gao 등, 치료 과학을 위한 인공 지능 재단, 자연 화학 생물학, 2022 [논문]
[3] Huang, Fu, Gao 등, Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development, NeurIPS 2021 [논문] [포스터]
[4] Huang 외, 치료 데이터 커먼즈의 분자 기계 학습 벤치마킹, ELLIS ML4Molecules 2021 [논문] [슬라이드]
[5] Huang 외, 치료 데이터 공유: 약물 발견 및 개발을 위한 기계 학습 데이터 세트 및 작업, Baylearn 2021 [슬라이드] [포스터]
[6] Huang, Fu, Gao 등, Therapeutics Data Commons, NSF-Harvard Symposium on Drugs for Future Pandemics 2020 [#futuretx20] [슬라이드] [동영상]
[7] TDC 사용자 그룹 밋업, 2022년 1월 [안건]
[8] Zitnik, 암 게놈 및 후성유전체 세션 번역을 위한 기계 학습, 2022년 AACR 연례 회의, 2022년 4월
[9] Zitnik, 네트워크 생물학을 위한 Few-Shot Learning, 생물정보학의 데이터 마이닝에 관한 KDD 워크숍 기조연설
[10] Zitnik, 약물 발견 및 개발을 위한 실행 가능한 기계 학습, Broad Institute, 모델, 추론 및 알고리즘 세미나, 2021
[11] Zitnik, 생물 의학 데이터를 위한 그래프 신경망, 전산 생물학의 기계 학습, 2020
[12] Zitnik, 코로나19 약물 용도 변경 기회 식별을 위한 그래프 신경망, MIT AI Cures, 2020
TDC의 최신 업데이트를 보려면 여기를 참조하세요!
pip
사용 TDC의 핵심 환경 종속성을 설치하려면 pip
사용하십시오.
pip install PyTDC
참고 : TDC는 베타 릴리스 버전입니다. 정기적으로 로컬 사본을 업데이트하십시오.
pip install PyTDC --upgrade
핵심 데이터 로더는 외부 패키지에 대한 종속성을 최소화하여 경량입니다.
numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn
우리는 TDC를 시작하기 위한 튜토리얼을 제공합니다:
이름 | 설명 |
---|---|
101 | TDC 데이터 로더 소개 |
102 | TDC 데이터 기능 소개 |
103.1 | TDC 소분자 데이터세트 살펴보기 |
103.2 | TDC Biologics 데이터 세트 살펴보기 |
104 | 15줄의 코드로 21개의 ADME ML 예측기 생성 |
105 | 분자 생성 오라클 |
106 | 벤치마크 제출 |
DGL | DGL GNN 사용자 그룹 회의에서 발표된 데모 |
U1.1 | 첫 번째 TDC 사용자 그룹 모임에서 데모 발표 |
U1.2 | 첫 번째 TDC 사용자 그룹 모임에서 데모 발표 |
201 | TDC-2 리소스 및 다중 모드 단일 셀 API |
202 | TDC-2 리소스 및 PrimeKG |
203 | TDC-2 리소스 및 외부 API |
204 | TDC-2 모델 허브 |
205 | TDC-2 분자특성 절벽 예측 과제 |
TDC는 독특한 3계층 계층 구조를 가지고 있으며, 우리가 아는 한 이는 치료를 위한 기계 학습을 체계적으로 구성하려는 최초의 시도입니다. 우리는 TDC를 세 가지 뚜렷한 문제 로 구성합니다. 각 문제마다 학습 과제 모음을 제공합니다. 마지막으로, 각 작업에 대해 일련의 데이터 세트를 제공합니다.
첫 번째 계층에서는 일련의 치료 작업을 관찰한 후 기계 학습이 과학적 발전을 촉진할 수 있는 세 가지 주요 영역(즉, 단일 인스턴스 예측, 다중 인스턴스 예측 및 생성)을 분류하고 추상화합니다.
single_pred
: 개별 생물의학 개체에 대한 속성 예측.multi_pred
: 여러 생물의학 개체가 주어진 경우 속성을 예측합니다.generation
: 새로운 바람직한 생체의학 개체의 생성.TDC 구조의 두 번째 계층은 학습 작업으로 구성됩니다. 이러한 작업이 개선되면 맞춤형 조합 치료법 식별, 새로운 종류의 항체 설계, 질병 진단 개선, 신흥 질병에 대한 새로운 치료법 찾기 등 다양한 응용 분야가 생길 수 있습니다.
마지막으로 TDC의 세 번째 계층에서 각 작업은 여러 데이터 세트를 통해 인스턴스화됩니다. 각 데이터 세트에 대해 교육, 검증 및 테스트 세트로 여러 분할을 제공하여 이해 및 일반화 유형(예: 완전히 보이지 않는 화합물을 일반화하거나 다중 요법에 대한 환자 반응을 세부적으로 해결하는 모델의 능력)을 시뮬레이션합니다. 생산 및 임상 구현.
TDC는 초보자와 전문가 모두가 Python에서 기계 학습 모델을 만들 수 있도록 직관적이고 높은 수준의 API가 포함된 워크플로 모음을 제공합니다. TDC에서 모듈화된 "문제 - 학습 작업 - 데이터 세트" 구조(위 참조)를 구축하여 모든 학습 작업 및 데이터 세트에 액세스할 수 있는 3계층 API를 제공합니다. 이 계층적 API 설계를 통해 새로운 작업과 데이터 세트를 쉽게 통합할 수 있습니다.
구체적인 예를 들어, 단일 인스턴스 예측 문제의 ADME 치료 학습 작업에서 HIA 데이터 세트를 얻으려면 다음을 수행하십시오.
from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )
다음과 같이 작업에 속하는 모든 데이터세트를 볼 수 있습니다.
from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )
TDC 웹사이트에서 모든 치료 작업과 데이터세트를 확인하세요!
학습/검증/테스트 데이터세트 분할을 검색하려면 다음을 입력하면 됩니다.
data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}
예를 들어 data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])
사용하여 함수의 분할 방법, 무작위 시드 및 분할 분수를 지정할 수 있습니다. 자세한 내용은 데이터 분할 페이지를 확인하세요.
우리는 웹사이트의 모델 평가 페이지에 설명된 TDC 작업에 대한 다양한 평가 지표를 제공합니다. 예를 들어 ROC-AUC 측정항목을 사용하려면 다음을 입력하면 됩니다.
from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )
TDC는 라벨 변환, 데이터 밸런싱, PyG/DGL 그래프에 데이터 페어링, 네거티브 샘플링, 데이터베이스 쿼리 등을 포함한 다양한 데이터 처리 기능을 제공합니다. 기능 사용에 대해서는 TDC 웹사이트의 데이터 처리 페이지를 참조하세요.
분자 생성 작업의 경우 목표 지향 학습과 분포 학습 모두를 위해 10개 이상의 오라클을 제공합니다. 각 오라클의 자세한 사용법은 홈페이지 오라클 페이지를 참고하시기 바랍니다. 예를 들어 GSK3Beta 오라클을 검색하려고 합니다.
from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....'
'C[C@@H]1....' ,
'CCNC(=O)....' ,
'C[C@@H]1....' ])
# [0.03, 0.02, 0.0, 0.1]
TDC의 모든 데이터 세트는 벤치마크이며 데이터 분할 및 성능 평가 지표와 함께 이에 대한 교육/검증 및 테스트 세트를 제공합니다. 특정 벤치마크의 리더보드에 참여하려면 다음 단계를 따르세요.
TDC 벤치마크 데이터 로더를 사용하여 벤치마크를 검색합니다.
훈련 및/또는 검증 세트를 사용하여 모델을 훈련하십시오.
TDC 모델 평가기를 사용하여 테스트 세트에서 모델 성능을 계산합니다.
테스트 세트 성능을 TDC 리더보드에 제출합니다.
많은 데이터 세트가 치료 주제를 공유하므로 벤치마크 그룹을 의미있게 정의된 그룹으로 구성합니다. 벤치마크 그룹 내의 데이터세트와 작업은 테마를 중심으로 신중하게 선별되고 집중됩니다(예를 들어 TDC에는 ADMET 속성의 ML 예측을 지원하는 벤치마크 그룹이 포함되어 있습니다). 모든 벤치마크 그룹은 여러 벤치마크로 구성되어 있지만 각 벤치마크에 대한 결과를 별도로 제출할 수도 있습니다. 벤치마크에 액세스하기 위한 코드 프레임워크는 다음과 같습니다.
from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []
for seed in [ 1 , 2 , 3 , 4 , 5 ]:
benchmark = group . get ( 'Caco2_Wang' )
# all benchmark names in a benchmark group are stored in group.dataset_names
predictions = {}
name = benchmark [ 'name' ]
train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
# --------------------------------------------- #
# Train your model using train, valid, test #
# Save test prediction in y_pred_test variable #
# --------------------------------------------- #
predictions [ name ] = y_pred_test
predictions_list . append ( predictions )
results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}
자세한 내용을 보려면 여기를 방문하세요.
Therapeutics Data Commons가 유용하다고 생각되면 NeurIPS'24 AIDrugX 논문, NeurIPS 논문 및 Nature Chemical Biology 논문을 인용하세요.
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
@article{Huang2021tdc,
title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
year={2021}
}
@article{Huang2022artificial,
title={Artificial intelligence foundation for therapeutic science},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Nature Chemical Biology},
year={2022}
}
TDC는 다른 오픈 소스 프로젝트 위에 구축되었습니다. 또한, 연구에 이러한 데이터세트/함수를 사용한 경우 원본 작업을 인용해 주세요. 웹사이트에서 함수/데이터세트에 대한 원본 논문을 찾을 수 있습니다.
TDC는 커뮤니티 중심의 개방형 과학 이니셔티브입니다. 참여하려면 Slack Workspace에 가입하고 기여 가이드를 확인하세요!
[email protected]로 연락하시거나 GitHub 문제를 열어주세요.
많은 TDC 데이터 세트는 다음 영구 식별자 https://doi.org/10.7910/DVN/21LKWG를 사용하여 Harvard Dataverse에서 호스팅됩니다. Dataverse가 유지 관리 중인 경우 TDC 데이터 세트를 검색할 수 없습니다. 그런 일은 거의 일어나지 않습니다. Dataverse 홈페이지에서 진행 상황을 확인해주세요.
TDC 코드베이스는 MIT 라이선스에 따라 라이선스가 부여됩니다. 개별 데이터셋 사용에 대해서는 홈페이지의 데이터셋 라이선스를 참고하시기 바랍니다.