Unduhan TDC - Unduhan kode Sumber TDC

TDC

Kode Sumber AI

1.0.0

Unduh

Kecerdasan buatan siap untuk membentuk kembali ilmu pengobatan. Therapeutics Data Commons adalah inisiatif terkoordinasi untuk mengakses dan mengevaluasi kemampuan kecerdasan buatan di seluruh modalitas terapeutik dan tahapan penemuan. Hal ini mendukung pengembangan metode AI dan bertujuan untuk menetapkan landasan metode AI mana yang paling cocok untuk aplikasi penemuan obat dan alasannya.

Peneliti lintas disiplin ilmu dapat menggunakan TDC untuk berbagai aplikasi. Tugas-tugas yang dapat diselesaikan dengan AI, kumpulan data yang mendukung AI, dan tolok ukur yang dikurasi di TDC berfungsi sebagai titik pertemuan antara ilmuwan biokimia dan AI. TDC memfasilitasi kemajuan algoritmik dan ilmiah serta mempercepat pengembangan, validasi, dan transisi metode pembelajaran mesin ke dalam implementasi biomedis dan klinis.

TDC adalah inisiatif ilmu pengetahuan terbuka. Kami menyambut kontribusi dari komunitas.

Presentasi dan Publikasi Utama TDC

[1] Velez-Arce, Huang, Li, Lin, dkk., TDC-2: Yayasan Multimodal untuk Ilmu Terapi, bioRxiv, 2024 [Makalah]

[2] Huang, Fu, Gao, dkk., Yayasan Kecerdasan Buatan untuk Ilmu Terapi, Biologi Kimia Alam, 2022 [Makalah]

[3] Huang, Fu, Gao, dkk., Therapeutics Data Commons: Kumpulan Data Pembelajaran Mesin dan Tugas untuk Penemuan dan Pengembangan Obat, NeurIPS 2021 [Makalah] [Poster]

[4] Huang et al., Membandingkan Pembelajaran Mesin Molekuler di Therapeutics Data Commons, ELLIS ML4Molecules 2021 [Makalah] [Slide]

[5] Huang dkk., Therapeutics Data Commons: Kumpulan Data Pembelajaran Mesin dan Tugas untuk Penemuan dan Pengembangan Obat, Baylearn 2021 [Slide] [Poster]

[6] Huang, Fu, Gao dkk., Therapeutics Data Commons, Simposium NSF-Harvard tentang Obat untuk Pandemi Masa Depan 2020 [#futuretx20] [Slide] [Video]

[7] Pertemuan Grup Pengguna TDC, Jan 2022 [Agenda]

[8] Zitnik, Pembelajaran Mesin untuk Menerjemahkan Sesi Genom dan Epigenom Kanker, Pertemuan Tahunan AACR 2022, Apr 2022

[9] Zitnik, Pembelajaran Sedikit untuk Biologi Jaringan, Pembicara Utama pada Lokakarya KDD tentang Penambangan Data dalam Bioinformatika

[10] Zitnik, Pembelajaran mesin yang dapat ditindaklanjuti untuk penemuan dan pengembangan obat, Broad Institute, Model, Inference & Algorithms Seminar, 2021

[11] Zitnik, Grafik Jaringan Syaraf Tiruan untuk Data Biomedis, Pembelajaran Mesin dalam Biologi Komputasi, 2020

[12] Zitnik, Grafik Jaringan Syaraf Tiruan untuk Mengidentifikasi Peluang Penggunaan Kembali Obat COVID-19, MIT AI Cures, 2020

Fitur Unik TDC

Beragam bidang pengembangan terapi : TDC mencakup berbagai tugas pembelajaran, termasuk penemuan target, penyaringan aktivitas, kemanjuran, keamanan, dan pembuatan produk biomedis, termasuk molekul kecil, antibodi, dan vaksin.
Kumpulan data siap pakai : TDC sedikit bergantung pada paket eksternal. Kumpulan data TDC apa pun dapat diambil hanya dengan menggunakan tiga baris kode.
Fungsi data : TDC menyediakan fungsi data yang luas, termasuk evaluator data, pemisahan data yang bermakna, pemroses data, dan oracle pembuatan molekul.
Papan Peringkat : TDC memberikan tolok ukur untuk perbandingan model yang adil serta pengembangan dan evaluasi model yang sistematis.
Inisiatif sumber terbuka : TDC adalah inisiatif sumber terbuka. Jika Anda ingin terlibat, jangan ragu untuk memberi tahu kami.

Lihat di sini untuk pembaruan terkini di TDC!

Instalasi

Menggunakan `pip`

Untuk menginstal dependensi lingkungan inti TDC, gunakan pip :

pip install PyTDC

Catatan : TDC sedang dalam rilis beta. Harap perbarui salinan lokal Anda secara berkala

pip install PyTDC --upgrade

Pemuat data inti ringan dengan ketergantungan minimum pada paket eksternal:

numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn

Tutorial

Kami menyediakan tutorial untuk memulai dengan TDC:

Nama	Keterangan
101	Perkenalkan Pemuat Data TDC
102	Perkenalkan Fungsi Data TDC
103.1	Telusuri Kumpulan Data Molekul Kecil TDC
103.2	Telusuri Kumpulan Data Biologis TDC
104	Hasilkan 21 Prediktor ADME ML dengan 15 Baris Kode
105	Oracle Generasi Molekul
106	Pengajuan tolok ukur
DJL	Demo disajikan pada Pertemuan Kelompok Pengguna DGL GNN
U1.1	Demo disajikan pada Pertemuan Kelompok Pengguna TDC pertama
U1.2	Demo disajikan pada Pertemuan Kelompok Pengguna TDC pertama
201	Sumber Daya TDC-2 dan API Sel Tunggal Multimodal
202	Sumber Daya TDC-2 dan PrimeKG
203	Sumber Daya TDC-2 dan API Eksternal
204	Pusat Model TDC-2
205	Tugas Prediksi Tebing Properti Molekuler TDC-2

Desain TDC

TDC memiliki struktur hierarki tiga tingkat yang unik, yang sepengetahuan kami merupakan upaya pertama dalam mengatur pembelajaran mesin untuk terapi secara sistematis. Kami mengatur TDC menjadi tiga masalah berbeda. Untuk setiap soal, kami menyediakan kumpulan tugas pembelajaran . Terakhir, untuk setiap tugas, kami menyediakan serangkaian kumpulan data .

Pada tingkat pertama, setelah mengamati serangkaian besar tugas terapeutik, kami mengategorikan dan mengabstraksikan tiga bidang utama (yaitu masalah) di mana pembelajaran mesin dapat memfasilitasi kemajuan ilmiah, yaitu prediksi instan tunggal, prediksi multi instans, dan pembuatan:

Prediksi contoh tunggal single_pred : Prediksi properti yang diberikan entitas biomedis individu.
Prediksi multi-instance multi_pred : Prediksi properti berdasarkan beberapa entitas biomedis.
generation generasi : Generasi entitas biomedis baru yang diinginkan.

Tingkat kedua dalam struktur TDC disusun menjadi tugas-tugas pembelajaran. Perbaikan dalam tugas-tugas ini dapat menghasilkan banyak penerapan, termasuk mengidentifikasi terapi kombinatorial yang dipersonalisasi, merancang kelas antibodi baru, meningkatkan diagnosis penyakit, dan menemukan obat baru untuk penyakit baru.

Terakhir, di TDC tingkat ketiga, setiap tugas dibuat melalui beberapa kumpulan data. Untuk setiap kumpulan data, kami menyediakan beberapa pembagian menjadi kumpulan pelatihan, validasi, dan pengujian untuk mensimulasikan jenis pemahaman dan generalisasi (misalnya, kemampuan model untuk menggeneralisasi senyawa yang sepenuhnya tidak terlihat atau untuk menyelesaikan respons pasien terhadap politerapi secara terperinci) yang diperlukan untuk transisi ke politerapi. produksi dan implementasi klinis.

Pemuat Data TDC

TDC menyediakan kumpulan alur kerja dengan API tingkat tinggi yang intuitif bagi pemula dan ahli untuk membuat model pembelajaran mesin dengan Python. Membangun struktur "Masalah -- Tugas Pembelajaran -- Kumpulan Data" yang termodulasi (lihat di atas) di TDC, kami menyediakan API tiga lapis untuk mengakses tugas pembelajaran dan kumpulan data apa pun. Desain API hierarkis ini memungkinkan kami menggabungkan tugas dan kumpulan data baru dengan mudah.

Sebagai contoh nyata, untuk mendapatkan kumpulan data HIA dari tugas pembelajaran terapeutik ADME dalam masalah prediksi contoh tunggal:

 from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )

Anda dapat melihat semua himpunan data milik suatu tugas sebagai berikut:

 from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )

Lihat semua tugas terapeutik dan kumpulan data di situs web TDC!

Fungsi Data TDC

Pemisahan Kumpulan Data

Untuk mengambil pemisahan kumpulan data pelatihan/validasi/pengujian, Anda dapat mengetik

 data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}

Anda dapat menentukan metode pemisahan fungsi, seed acak, dan pecahan pecahan dengan, misalnya, data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2]) . Periksa halaman pemisahan data untuk mengetahui detailnya.

Strategi Evaluasi Model

Kami menyediakan berbagai metrik evaluasi untuk tugas-tugas di TDC, yang dijelaskan di halaman evaluasi model di situs web. Misalnya, untuk menggunakan metrik ROC-AUC, Anda dapat mengetik

 from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )

Pengolahan data

TDC menyediakan berbagai fungsi pemrosesan data, termasuk transformasi label, penyeimbangan data, memasangkan data ke grafik PyG/DGL, pengambilan sampel negatif, kueri database, dan sebagainya. Untuk penggunaan fungsi, lihat halaman pemrosesan data kami di situs web TDC.

Oracle Generasi Molekul

Untuk tugas pembuatan molekul, kami menyediakan 10+ oracle untuk pembelajaran berorientasi tujuan dan distribusi. Untuk detail penggunaan masing-masing oracle, silakan lihat halaman oracle di situs web. Misalnya, kami ingin mengambil oracle GSK3Beta:

 from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....' 
  'C[C@@H]1....' ,
  'CCNC(=O)....' , 
  'C[C@@H]1....' ])

# [0.03, 0.02, 0.0, 0.1]

Papan Peringkat TDC

Setiap kumpulan data di TDC merupakan tolok ukur, dan kami menyediakan pelatihan/validasi dan kumpulan pengujian untuk data tersebut, bersama dengan pemisahan data dan metrik evaluasi kinerja. Untuk berpartisipasi dalam papan peringkat untuk tolok ukur tertentu, ikuti langkah-langkah berikut:

Gunakan pemuat data benchmark TDC untuk mengambil benchmark.
Gunakan set pelatihan dan/atau validasi untuk melatih model Anda.
Gunakan evaluator model TDC untuk menghitung performa model Anda pada set pengujian.
Kirimkan kinerja set pengujian ke papan peringkat TDC.

Karena banyak kumpulan data yang memiliki tema terapeutik yang sama, kami menyusun tolok ukur ke dalam kelompok yang didefinisikan secara bermakna, yang kami sebut sebagai kelompok tolok ukur. Kumpulan data dan tugas dalam grup tolok ukur dikurasi secara cermat dan dipusatkan pada suatu tema (misalnya, TDC berisi grup tolok ukur untuk mendukung prediksi ML properti ADMET). Meskipun setiap grup tolok ukur terdiri dari beberapa tolok ukur, hasil untuk setiap tolok ukur dapat dikirimkan secara terpisah. Berikut adalah kerangka kode untuk mengakses benchmark:

 from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []

for seed in [ 1 , 2 , 3 , 4 , 5 ]:
    benchmark = group . get ( 'Caco2_Wang' ) 
    # all benchmark names in a benchmark group are stored in group.dataset_names
    predictions = {}
    name = benchmark [ 'name' ]
    train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
    train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
    
        # --------------------------------------------- # 
        #  Train your model using train, valid, test    #
        #  Save test prediction in y_pred_test variable #
        # --------------------------------------------- #
        
    predictions [ name ] = y_pred_test
    predictions_list . append ( predictions )

results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}

Untuk informasi lebih lanjut, kunjungi di sini.

Kutip Kami

Jika menurut Anda Therapeutics Data Commons bermanfaat, kutip makalah NeurIPS'24 AIDrugX kami, makalah NeurIPS kami, dan makalah Nature Chemical Biology :

 @inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}

 @article{Huang2021tdc,
  title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
  year={2021}
}

 @article{Huang2022artificial,
  title={Artificial intelligence foundation for therapeutic science},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Nature Chemical Biology},
  year={2022}
}

TDC dibangun di atas proyek sumber terbuka lainnya. Selain itu, harap kutip karya asli jika Anda menggunakan kumpulan data/fungsi ini dalam penelitian Anda. Anda dapat menemukan makalah asli untuk fungsi/kumpulan data di situs web.

Menyumbang

TDC adalah inisiatif sains terbuka dan berbasis komunitas. Untuk terlibat, bergabunglah dengan Slack Workspace kami dan lihat panduan kontribusi!

Kontak

Hubungi kami di [email protected] atau buka terbitan GitHub.

Server Data

Banyak kumpulan data TDC yang dihosting di Harvard Dataverse dengan pengidentifikasi persisten berikut https://doi.org/10.7910/DVN/21LKWG. Ketika Dataverse sedang dalam pemeliharaan, kumpulan data TDC tidak dapat diambil. Hal ini jarang terjadi; silakan periksa statusnya di situs web Dataverse.