เว็บไซต์ | กระดาษ NeurIPS 2024 AIDrugX | เอกสารธรรมชาติชีววิทยาเคมี พ.ศ. 2565 | กระดาษ NeurIPS 2021 | กระดาษยาว | หย่อน | รายชื่อผู้รับจดหมาย TDC | เอกสาร TDC | แนวทางการบริจาค
ปัญญาประดิษฐ์พร้อมที่จะพลิกโฉมวิทยาศาสตร์การรักษา Therapeutics Data Commons เป็นความคิดริเริ่มที่มีการประสานงานในการเข้าถึงและประเมินความสามารถด้านปัญญาประดิษฐ์ในรูปแบบการรักษาและขั้นตอนของการค้นพบ สนับสนุนการพัฒนาวิธี AI และมีเป้าหมายเพื่อสร้างรากฐานว่าวิธี AI ใดที่เหมาะสมที่สุดสำหรับการค้นคว้ายาและเพราะเหตุใด
นักวิจัยในสาขาวิชาต่างๆ สามารถใช้ TDC เพื่อการใช้งานต่างๆ มากมาย งานที่แก้ไขได้ด้วย AI ชุดข้อมูลที่พร้อมสำหรับ AI และเกณฑ์มาตรฐานที่รวบรวมไว้ใน TDC ทำหน้าที่เป็นจุดนัดพบระหว่างนักวิทยาศาสตร์ทางชีวเคมีและ AI TDC อำนวยความสะดวกให้กับความก้าวหน้าทางวิทยาศาสตร์และอัลกอริธึม และเร่งการพัฒนาวิธีการเรียนรู้ของเครื่อง การตรวจสอบความถูกต้อง และการเปลี่ยนผ่านไปสู่การใช้งานด้านชีวการแพทย์และทางคลินิก
TDC เป็นโครงการริเริ่มด้านวิทยาศาสตร์แบบเปิด เรายินดีรับการสนับสนุนจากชุมชน
(1) Velez-Arce, Huang, Li, Lin, et al., TDC-2: มูลนิธิต่อเนื่องหลายรูปแบบเพื่อวิทยาศาสตร์การรักษา, bioRxiv, 2024 [กระดาษ]
(2) Huang, Fu, Gao, et al., มูลนิธิปัญญาประดิษฐ์เพื่อวิทยาศาสตร์การรักษา, ชีววิทยาเคมีธรรมชาติ, 2022 [กระดาษ]
(3) Huang, Fu, Gao, et al., ข้อมูลการรักษาทั่วไป: ชุดข้อมูลการเรียนรู้ของเครื่องและงานสำหรับการค้นพบและพัฒนายา, NeurIPS 2021 [กระดาษ] [โปสเตอร์]
(4) Huang และคณะ การเปรียบเทียบการเรียนรู้ของเครื่องระดับโมเลกุลในข้อมูลการรักษาทั่วไป ELLIS ML4Molecules 2021 [กระดาษ] [สไลด์]
(5) Huang และคณะ ข้อมูลการรักษาทั่วไป: ชุดข้อมูลการเรียนรู้ของเครื่องและงานสำหรับการค้นพบและพัฒนายา Baylearn 2021 [สไลด์] [โปสเตอร์]
[6] Huang, Fu, Gao et al., ข้อมูลทั่วไปด้านการรักษา, การประชุมวิชาการ NSF-Harvard เรื่องยาเพื่อการแพร่ระบาดในอนาคต 2020 [#futuretx20] [สไลด์] [วิดีโอ]
[7] พบปะกลุ่มผู้ใช้ TDC มกราคม 2565 [วาระการประชุม]
(8) Zitnik การเรียนรู้ของเครื่องเพื่อแปลจีโนมมะเร็งและเซสชัน Epigenome การประชุมประจำปี AACR ปี 2022 เมษายน 2022
(9) Zitnik การเรียนรู้ไม่กี่ครั้งสำหรับชีววิทยาเครือข่าย คำปราศรัยที่การประชุมเชิงปฏิบัติการ KDD เรื่องการทำเหมืองข้อมูลในชีวสารสนเทศศาสตร์
[10] Zitnik, การเรียนรู้ของเครื่องที่ดำเนินการได้สำหรับการค้นพบและพัฒนายา, Broad Institute, โมเดล, การอนุมานและอัลกอริทึมสัมมนา, ปี 2021
(11) Zitnik, โครงข่ายประสาทเทียมแบบกราฟสำหรับข้อมูลชีวการแพทย์, การเรียนรู้ของเครื่องในชีววิทยาเชิงคอมพิวเตอร์, 2020
(12) Zitnik, กราฟโครงข่ายประสาทเทียมเพื่อระบุโอกาสในการนำยากลับมาใช้ใหม่จากโรคโควิด-19, MIT AI Cures, 2020
ดูการอัปเดตล่าสุดใน TDC ที่นี่!
pip
หากต้องการติดตั้งการพึ่งพาสภาพแวดล้อมหลักของ TDC ให้ใช้ pip
:
pip install PyTDC
หมายเหตุ : TDC อยู่ในรุ่นเบต้า โปรดอัปเดตสำเนาในเครื่องของคุณเป็นประจำโดย
pip install PyTDC --upgrade
ตัวโหลดข้อมูลหลักมีน้ำหนักเบาโดยต้องพึ่งพาแพ็คเกจภายนอกขั้นต่ำ:
numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn
เรามีบทช่วยสอนเพื่อเริ่มต้นกับ TDC:
ชื่อ | คำอธิบาย |
---|---|
101 | ขอแนะนำตัวโหลดข้อมูล TDC |
102 | แนะนำฟังก์ชันข้อมูล TDC |
103.1 | เดินผ่านชุดข้อมูลโมเลกุลขนาดเล็กของ TDC |
103.2 | เดินผ่านชุดข้อมูล TDC Biologics |
104 | สร้างตัวทำนาย ADME ML 21 ตัวพร้อมโค้ด 15 บรรทัด |
105 | ออราเคิลการสร้างโมเลกุล |
106 | การส่งเกณฑ์มาตรฐาน |
ดีจีแอล | การสาธิตนำเสนอในการประชุมกลุ่มผู้ใช้ DGL GNN |
ยู1.1 | การสาธิตนำเสนอในการพบปะกลุ่มผู้ใช้ TDC ครั้งแรก |
ยู1.2 | การสาธิตนำเสนอในการพบปะกลุ่มผู้ใช้ TDC ครั้งแรก |
201 | ทรัพยากร TDC-2 และ API เซลล์เดียวหลายโมดัล |
202 | ทรัพยากร TDC-2 และ PrimeKG |
203 | ทรัพยากร TDC-2 และ API ภายนอก |
204 | ดุมรุ่น TDC-2 |
205 | งานทำนายหน้าผาคุณสมบัติโมเลกุล TDC-2 |
TDC มีโครงสร้างลำดับชั้นสามชั้นที่เป็นเอกลักษณ์ ซึ่งเป็นความพยายามครั้งแรกในการจัดการการเรียนรู้ของเครื่องเพื่อการบำบัดอย่างเป็นระบบ เราจัด TDC ออกเป็นสาม ปัญหา ที่แตกต่างกัน สำหรับแต่ละปัญหา เรามีชุด งานการเรียนรู้ สุดท้ายนี้ สำหรับแต่ละงาน เรามีชุด ข้อมูล
ในระดับแรก หลังจากที่สังเกตงานการบำบัดชุดใหญ่แล้ว เราจะจัดหมวดหมู่และสรุปประเด็นหลักสามส่วน (เช่น ปัญหา) ซึ่งการเรียนรู้ของเครื่องสามารถเอื้อให้เกิดความก้าวหน้าทางวิทยาศาสตร์ กล่าวคือ การทำนายด้วยอินสแตนซ์เดียว การทำนายหลายอินสแตนซ์ และการสร้าง:
single_pred
: การทำนายคุณสมบัติที่กำหนดเอนทิตีชีวการแพทย์แต่ละรายการmulti_pred
: การทำนายทรัพย์สินจากเอนทิตีชีวการแพทย์หลายรายการgeneration
รุ่น : การสร้างหน่วยงานชีวการแพทย์ใหม่ๆ ที่พึงประสงค์ชั้นที่สองในโครงสร้าง TDC จัดเป็นงานการเรียนรู้ การปรับปรุงงานเหล่านี้อาจส่งผลให้เกิดการใช้งานหลายอย่าง รวมถึงการระบุการบำบัดแบบผสมผสานเฉพาะบุคคล การออกแบบแอนติบอดีประเภทใหม่ การปรับปรุงการวินิจฉัยโรค และการค้นหาวิธีการรักษาโรคใหม่ๆ
สุดท้ายนี้ ในระดับที่สามของ TDC แต่ละงานจะถูกสร้างอินสแตนซ์ผ่านชุดข้อมูลหลายชุด สำหรับแต่ละชุดข้อมูล เรามีการแบ่งหลายชุดออกเป็นชุดการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบเพื่อจำลองประเภทของความเข้าใจและลักษณะทั่วไป (เช่น ความสามารถของแบบจำลองในการสรุปสารประกอบที่มองไม่เห็นทั้งหมด หรือเพื่อแก้ไขการตอบสนองของผู้ป่วยต่อโพลีบำบัดแบบละเอียด) ที่จำเป็นสำหรับการเปลี่ยนผ่านไปสู่ การผลิตและการนำไปใช้ทางคลินิก
TDC มอบคอลเลกชันเวิร์กโฟลว์ที่มี API ระดับสูงที่ใช้งานง่ายสำหรับทั้งผู้เริ่มต้นและผู้เชี่ยวชาญเพื่อสร้างโมเดลการเรียนรู้ของเครื่องใน Python จากโครงสร้าง "ปัญหา -- งานการเรียนรู้ -- ชุดข้อมูล" ที่เป็นโมดูลาร์ (ดูด้านบน) ใน TDC เรามี API สามชั้นเพื่อเข้าถึงงานการเรียนรู้และชุดข้อมูล การออกแบบ API แบบลำดับชั้นนี้ช่วยให้เรารวมงานและชุดข้อมูลใหม่ๆ ได้อย่างง่ายดาย
สำหรับตัวอย่างที่เป็นรูปธรรม หากต้องการรับชุดข้อมูล HIA จากงานการเรียนรู้การบำบัดของ ADME ในปัญหาการทำนายแบบอินสแตนซ์เดียว:
from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )
คุณสามารถดูชุดข้อมูลทั้งหมดที่เป็นของงานได้ดังนี้:
from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )
ดูงานการรักษาและชุดข้อมูลทั้งหมดบนเว็บไซต์ TDC!
หากต้องการดึงข้อมูลการแยกชุดข้อมูลการฝึกอบรม/การตรวจสอบ/การทดสอบ คุณสามารถพิมพ์ได้
data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}
คุณสามารถระบุวิธีการแยกของฟังก์ชัน เมล็ดสุ่ม และการแยกเศษส่วนได้ เช่น data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])
ตรวจสอบหน้าแยกข้อมูลเพื่อดูรายละเอียด
เรามีตัวชี้วัดการประเมินต่างๆ สำหรับงานใน TDC ตามที่อธิบายไว้ในหน้าการประเมินแบบจำลองบนเว็บไซต์ ตัวอย่างเช่น หากต้องการใช้หน่วยเมตริก ROC-AUC คุณสามารถพิมพ์ได้
from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )
TDC มีฟังก์ชันการประมวลผลข้อมูลมากมาย รวมถึงการแปลงฉลาก การปรับสมดุลข้อมูล การจับคู่ข้อมูลกับกราฟ PyG/DGL การสุ่มตัวอย่างเชิงลบ การสืบค้นฐานข้อมูล และอื่นๆ สำหรับการใช้งานฟังก์ชัน โปรดดูหน้าการประมวลผลข้อมูลของเราบนเว็บไซต์ TDC
สำหรับงานการสร้างโมเลกุล เรามี oracle มากกว่า 10 รายการสำหรับการเรียนรู้ทั้งแบบมุ่งเน้นเป้าหมายและแบบกระจาย สำหรับรายละเอียดการใช้งาน Oracle แต่ละอัน โปรดดูที่หน้า Oracle บนเว็บไซต์ ตัวอย่างเช่น เราต้องการดึงข้อมูล oracle GSK3Beta:
from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....'
'C[C@@H]1....' ,
'CCNC(=O)....' ,
'C[C@@H]1....' ])
# [0.03, 0.02, 0.0, 0.1]
ชุดข้อมูลทุกชุดใน TDC ถือเป็นการวัดประสิทธิภาพ และเราจัดเตรียมชุดการฝึกอบรม/การตรวจสอบความถูกต้อง และชุดการทดสอบ พร้อมด้วยการแยกข้อมูลและตัวชี้วัดการประเมินประสิทธิภาพ หากต้องการเข้าร่วมกระดานผู้นำสำหรับเกณฑ์มาตรฐานเฉพาะ ให้ทำตามขั้นตอนเหล่านี้:
ใช้ตัวโหลดข้อมูลการวัดประสิทธิภาพ TDC เพื่อดึงข้อมูลการวัดประสิทธิภาพ
ใช้ชุดการฝึกและ/หรือการตรวจสอบเพื่อฝึกโมเดลของคุณ
ใช้เครื่องประเมินโมเดล TDC เพื่อคำนวณประสิทธิภาพของโมเดลของคุณในชุดทดสอบ
ส่งประสิทธิภาพของชุดทดสอบไปยังลีดเดอร์บอร์ด TDC
เนื่องจากชุดข้อมูลจำนวนมากมีธีมการรักษาร่วมกัน เราจึงจัดเกณฑ์มาตรฐานออกเป็นกลุ่มที่กำหนดอย่างมีความหมาย ซึ่งเราเรียกว่ากลุ่มเกณฑ์มาตรฐาน ชุดข้อมูลและงานภายในกลุ่มการวัดประสิทธิภาพได้รับการดูแลจัดการอย่างรอบคอบและเน้นไปที่ธีม (เช่น TDC มีกลุ่มการวัดประสิทธิภาพเพื่อรองรับการคาดการณ์ ML ของคุณสมบัติ ADMET) แม้ว่ากลุ่มการวัดประสิทธิภาพแต่ละกลุ่มจะประกอบด้วยการวัดประสิทธิภาพหลายรายการ แต่ก็สามารถส่งผลแยกกันสำหรับการวัดประสิทธิภาพแต่ละรายการได้ นี่คือกรอบโค้ดเพื่อเข้าถึงการวัดประสิทธิภาพ:
from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []
for seed in [ 1 , 2 , 3 , 4 , 5 ]:
benchmark = group . get ( 'Caco2_Wang' )
# all benchmark names in a benchmark group are stored in group.dataset_names
predictions = {}
name = benchmark [ 'name' ]
train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
# --------------------------------------------- #
# Train your model using train, valid, test #
# Save test prediction in y_pred_test variable #
# --------------------------------------------- #
predictions [ name ] = y_pred_test
predictions_list . append ( predictions )
results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}
สำหรับข้อมูลเพิ่มเติม โปรดเยี่ยมชมที่นี่
หากคุณพบว่าข้อมูลทั่วไปด้านการบำบัดมีประโยชน์ โปรดอ้างอิงรายงาน NeurIPS'24 AIDrugX, เอกสาร NeurIPS ของเรา และเอกสารชีววิทยาเคมีธรรมชาติ:
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
@article{Huang2021tdc,
title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
year={2021}
}
@article{Huang2022artificial,
title={Artificial intelligence foundation for therapeutic science},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Nature Chemical Biology},
year={2022}
}
TDC สร้างขึ้นจากโครงการโอเพ่นซอร์สอื่นๆ นอกจากนี้ โปรดอ้างอิงงานต้นฉบับหากคุณใช้ชุดข้อมูล/ฟังก์ชันเหล่านี้ในการวิจัยของคุณ คุณสามารถค้นหาเอกสารต้นฉบับสำหรับฟังก์ชัน/ชุดข้อมูลได้จากเว็บไซต์
TDC เป็นโครงการริเริ่มด้านวิทยาศาสตร์แบบเปิดที่ขับเคลื่อนโดยชุมชน หากต้องการมีส่วนร่วม เข้าร่วม Slack Workspace ของเราและดูคู่มือการมีส่วนร่วม!
ติดต่อเราที่ [email protected] หรือเปิดปัญหา GitHub
ชุดข้อมูล TDC จำนวนมากโฮสต์อยู่บน Harvard Dataverse โดยมีตัวระบุถาวรต่อไปนี้ https://doi.org/10.7910/DVN/21LKWG เมื่อ Dataverse อยู่ระหว่างการบำรุงรักษา ชุดข้อมูล TDC จะไม่สามารถเรียกคืนได้ นั่นเกิดขึ้นไม่บ่อยนัก โปรดตรวจสอบสถานะบนเว็บไซต์ Dataverse
รหัสฐาน TDC ได้รับอนุญาตภายใต้ใบอนุญาต MIT สำหรับการใช้งานชุดข้อมูลแต่ละชุด โปรดดูใบอนุญาตชุดข้อมูลบนเว็บไซต์