Situs web | Makalah AIDrugX NeurIPS 2024 | Makalah Biologi Kimia Alam 2022 | Makalah NeurIPS 2021 | Kertas Panjang | Kendur | Milis TDC | Dokumentasi TDC | Pedoman Kontribusi
Kecerdasan buatan siap untuk membentuk kembali ilmu pengobatan. Therapeutics Data Commons adalah inisiatif terkoordinasi untuk mengakses dan mengevaluasi kemampuan kecerdasan buatan di seluruh modalitas terapeutik dan tahapan penemuan. Hal ini mendukung pengembangan metode AI dan bertujuan untuk menetapkan landasan metode AI mana yang paling cocok untuk aplikasi penemuan obat dan alasannya.
Peneliti lintas disiplin ilmu dapat menggunakan TDC untuk berbagai aplikasi. Tugas-tugas yang dapat diselesaikan dengan AI, kumpulan data yang mendukung AI, dan tolok ukur yang dikurasi di TDC berfungsi sebagai titik pertemuan antara ilmuwan biokimia dan AI. TDC memfasilitasi kemajuan algoritmik dan ilmiah serta mempercepat pengembangan, validasi, dan transisi metode pembelajaran mesin ke dalam implementasi biomedis dan klinis.
TDC adalah inisiatif ilmu pengetahuan terbuka. Kami menyambut kontribusi dari komunitas.
[1] Velez-Arce, Huang, Li, Lin, dkk., TDC-2: Yayasan Multimodal untuk Ilmu Terapi, bioRxiv, 2024 [Makalah]
[2] Huang, Fu, Gao, dkk., Yayasan Kecerdasan Buatan untuk Ilmu Terapi, Biologi Kimia Alam, 2022 [Makalah]
[3] Huang, Fu, Gao, dkk., Therapeutics Data Commons: Kumpulan Data Pembelajaran Mesin dan Tugas untuk Penemuan dan Pengembangan Obat, NeurIPS 2021 [Makalah] [Poster]
[4] Huang et al., Membandingkan Pembelajaran Mesin Molekuler di Therapeutics Data Commons, ELLIS ML4Molecules 2021 [Makalah] [Slide]
[5] Huang dkk., Therapeutics Data Commons: Kumpulan Data Pembelajaran Mesin dan Tugas untuk Penemuan dan Pengembangan Obat, Baylearn 2021 [Slide] [Poster]
[6] Huang, Fu, Gao dkk., Therapeutics Data Commons, Simposium NSF-Harvard tentang Obat untuk Pandemi Masa Depan 2020 [#futuretx20] [Slide] [Video]
[7] Pertemuan Grup Pengguna TDC, Jan 2022 [Agenda]
[8] Zitnik, Pembelajaran Mesin untuk Menerjemahkan Sesi Genom dan Epigenom Kanker, Pertemuan Tahunan AACR 2022, Apr 2022
[9] Zitnik, Pembelajaran Sedikit untuk Biologi Jaringan, Pembicara Utama pada Lokakarya KDD tentang Penambangan Data dalam Bioinformatika
[10] Zitnik, Pembelajaran mesin yang dapat ditindaklanjuti untuk penemuan dan pengembangan obat, Broad Institute, Model, Inference & Algorithms Seminar, 2021
[11] Zitnik, Grafik Jaringan Syaraf Tiruan untuk Data Biomedis, Pembelajaran Mesin dalam Biologi Komputasi, 2020
[12] Zitnik, Grafik Jaringan Syaraf Tiruan untuk Mengidentifikasi Peluang Penggunaan Kembali Obat COVID-19, MIT AI Cures, 2020
Lihat di sini untuk pembaruan terkini di TDC!
pip
Untuk menginstal dependensi lingkungan inti TDC, gunakan pip
:
pip install PyTDC
Catatan : TDC sedang dalam rilis beta. Harap perbarui salinan lokal Anda secara berkala
pip install PyTDC --upgrade
Pemuat data inti ringan dengan ketergantungan minimum pada paket eksternal:
numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn
Kami menyediakan tutorial untuk memulai dengan TDC:
Nama | Keterangan |
---|---|
101 | Perkenalkan Pemuat Data TDC |
102 | Perkenalkan Fungsi Data TDC |
103.1 | Telusuri Kumpulan Data Molekul Kecil TDC |
103.2 | Telusuri Kumpulan Data Biologis TDC |
104 | Hasilkan 21 Prediktor ADME ML dengan 15 Baris Kode |
105 | Oracle Generasi Molekul |
106 | Pengajuan tolok ukur |
DJL | Demo disajikan pada Pertemuan Kelompok Pengguna DGL GNN |
U1.1 | Demo disajikan pada Pertemuan Kelompok Pengguna TDC pertama |
U1.2 | Demo disajikan pada Pertemuan Kelompok Pengguna TDC pertama |
201 | Sumber Daya TDC-2 dan API Sel Tunggal Multimodal |
202 | Sumber Daya TDC-2 dan PrimeKG |
203 | Sumber Daya TDC-2 dan API Eksternal |
204 | Pusat Model TDC-2 |
205 | Tugas Prediksi Tebing Properti Molekuler TDC-2 |
TDC memiliki struktur hierarki tiga tingkat yang unik, yang sepengetahuan kami merupakan upaya pertama dalam mengatur pembelajaran mesin untuk terapi secara sistematis. Kami mengatur TDC menjadi tiga masalah berbeda. Untuk setiap soal, kami menyediakan kumpulan tugas pembelajaran . Terakhir, untuk setiap tugas, kami menyediakan serangkaian kumpulan data .
Pada tingkat pertama, setelah mengamati serangkaian besar tugas terapeutik, kami mengategorikan dan mengabstraksikan tiga bidang utama (yaitu masalah) di mana pembelajaran mesin dapat memfasilitasi kemajuan ilmiah, yaitu prediksi instan tunggal, prediksi multi instans, dan pembuatan:
single_pred
: Prediksi properti yang diberikan entitas biomedis individu.multi_pred
: Prediksi properti berdasarkan beberapa entitas biomedis.generation
generasi : Generasi entitas biomedis baru yang diinginkan.Tingkat kedua dalam struktur TDC disusun menjadi tugas-tugas pembelajaran. Perbaikan dalam tugas-tugas ini dapat menghasilkan banyak penerapan, termasuk mengidentifikasi terapi kombinatorial yang dipersonalisasi, merancang kelas antibodi baru, meningkatkan diagnosis penyakit, dan menemukan obat baru untuk penyakit baru.
Terakhir, di TDC tingkat ketiga, setiap tugas dibuat melalui beberapa kumpulan data. Untuk setiap kumpulan data, kami menyediakan beberapa pembagian menjadi kumpulan pelatihan, validasi, dan pengujian untuk mensimulasikan jenis pemahaman dan generalisasi (misalnya, kemampuan model untuk menggeneralisasi senyawa yang sepenuhnya tidak terlihat atau untuk menyelesaikan respons pasien terhadap politerapi secara terperinci) yang diperlukan untuk transisi ke politerapi. produksi dan implementasi klinis.
TDC menyediakan kumpulan alur kerja dengan API tingkat tinggi yang intuitif bagi pemula dan ahli untuk membuat model pembelajaran mesin dengan Python. Membangun struktur "Masalah -- Tugas Pembelajaran -- Kumpulan Data" yang termodulasi (lihat di atas) di TDC, kami menyediakan API tiga lapis untuk mengakses tugas pembelajaran dan kumpulan data apa pun. Desain API hierarkis ini memungkinkan kami menggabungkan tugas dan kumpulan data baru dengan mudah.
Sebagai contoh nyata, untuk mendapatkan kumpulan data HIA dari tugas pembelajaran terapeutik ADME dalam masalah prediksi contoh tunggal:
from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )
Anda dapat melihat semua himpunan data milik suatu tugas sebagai berikut:
from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )
Lihat semua tugas terapeutik dan kumpulan data di situs web TDC!
Untuk mengambil pemisahan kumpulan data pelatihan/validasi/pengujian, Anda dapat mengetik
data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}
Anda dapat menentukan metode pemisahan fungsi, seed acak, dan pecahan pecahan dengan, misalnya, data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])
. Periksa halaman pemisahan data untuk mengetahui detailnya.
Kami menyediakan berbagai metrik evaluasi untuk tugas-tugas di TDC, yang dijelaskan di halaman evaluasi model di situs web. Misalnya, untuk menggunakan metrik ROC-AUC, Anda dapat mengetik
from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )
TDC menyediakan berbagai fungsi pemrosesan data, termasuk transformasi label, penyeimbangan data, memasangkan data ke grafik PyG/DGL, pengambilan sampel negatif, kueri database, dan sebagainya. Untuk penggunaan fungsi, lihat halaman pemrosesan data kami di situs web TDC.
Untuk tugas pembuatan molekul, kami menyediakan 10+ oracle untuk pembelajaran berorientasi tujuan dan distribusi. Untuk detail penggunaan masing-masing oracle, silakan lihat halaman oracle di situs web. Misalnya, kami ingin mengambil oracle GSK3Beta:
from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....'
'C[C@@H]1....' ,
'CCNC(=O)....' ,
'C[C@@H]1....' ])
# [0.03, 0.02, 0.0, 0.1]
Setiap kumpulan data di TDC merupakan tolok ukur, dan kami menyediakan pelatihan/validasi dan kumpulan pengujian untuk data tersebut, bersama dengan pemisahan data dan metrik evaluasi kinerja. Untuk berpartisipasi dalam papan peringkat untuk tolok ukur tertentu, ikuti langkah-langkah berikut:
Gunakan pemuat data benchmark TDC untuk mengambil benchmark.
Gunakan set pelatihan dan/atau validasi untuk melatih model Anda.
Gunakan evaluator model TDC untuk menghitung performa model Anda pada set pengujian.
Kirimkan kinerja set pengujian ke papan peringkat TDC.
Karena banyak kumpulan data yang memiliki tema terapeutik yang sama, kami menyusun tolok ukur ke dalam kelompok yang didefinisikan secara bermakna, yang kami sebut sebagai kelompok tolok ukur. Kumpulan data dan tugas dalam grup tolok ukur dikurasi secara cermat dan dipusatkan pada suatu tema (misalnya, TDC berisi grup tolok ukur untuk mendukung prediksi ML properti ADMET). Meskipun setiap grup tolok ukur terdiri dari beberapa tolok ukur, hasil untuk setiap tolok ukur dapat dikirimkan secara terpisah. Berikut adalah kerangka kode untuk mengakses benchmark:
from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []
for seed in [ 1 , 2 , 3 , 4 , 5 ]:
benchmark = group . get ( 'Caco2_Wang' )
# all benchmark names in a benchmark group are stored in group.dataset_names
predictions = {}
name = benchmark [ 'name' ]
train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
# --------------------------------------------- #
# Train your model using train, valid, test #
# Save test prediction in y_pred_test variable #
# --------------------------------------------- #
predictions [ name ] = y_pred_test
predictions_list . append ( predictions )
results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}
Untuk informasi lebih lanjut, kunjungi di sini.
Jika menurut Anda Therapeutics Data Commons bermanfaat, kutip makalah NeurIPS'24 AIDrugX kami, makalah NeurIPS kami, dan makalah Nature Chemical Biology :
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
@article{Huang2021tdc,
title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
year={2021}
}
@article{Huang2022artificial,
title={Artificial intelligence foundation for therapeutic science},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Nature Chemical Biology},
year={2022}
}
TDC dibangun di atas proyek sumber terbuka lainnya. Selain itu, harap kutip karya asli jika Anda menggunakan kumpulan data/fungsi ini dalam penelitian Anda. Anda dapat menemukan makalah asli untuk fungsi/kumpulan data di situs web.
TDC adalah inisiatif sains terbuka dan berbasis komunitas. Untuk terlibat, bergabunglah dengan Slack Workspace kami dan lihat panduan kontribusi!
Hubungi kami di [email protected] atau buka terbitan GitHub.
Banyak kumpulan data TDC yang dihosting di Harvard Dataverse dengan pengidentifikasi persisten berikut https://doi.org/10.7910/DVN/21LKWG. Ketika Dataverse sedang dalam pemeliharaan, kumpulan data TDC tidak dapat diambil. Hal ini jarang terjadi; silakan periksa statusnya di situs web Dataverse.
Basis kode TDC dilisensikan di bawah lisensi MIT. Untuk penggunaan kumpulan data individual, silakan lihat lisensi kumpulan data di situs web.