ดาวน์โหลด TDC - ดาวน์โหลดซอร์สโค้ด TDC

TDC

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ปัญญาประดิษฐ์พร้อมที่จะพลิกโฉมวิทยาศาสตร์การรักษา Therapeutics Data Commons เป็นความคิดริเริ่มที่มีการประสานงานในการเข้าถึงและประเมินความสามารถด้านปัญญาประดิษฐ์ในรูปแบบการรักษาและขั้นตอนของการค้นพบ สนับสนุนการพัฒนาวิธี AI และมีเป้าหมายเพื่อสร้างรากฐานว่าวิธี AI ใดที่เหมาะสมที่สุดสำหรับการค้นคว้ายาและเพราะเหตุใด

นักวิจัยในสาขาวิชาต่างๆ สามารถใช้ TDC เพื่อการใช้งานต่างๆ มากมาย งานที่แก้ไขได้ด้วย AI ชุดข้อมูลที่พร้อมสำหรับ AI และเกณฑ์มาตรฐานที่รวบรวมไว้ใน TDC ทำหน้าที่เป็นจุดนัดพบระหว่างนักวิทยาศาสตร์ทางชีวเคมีและ AI TDC อำนวยความสะดวกให้กับความก้าวหน้าทางวิทยาศาสตร์และอัลกอริธึม และเร่งการพัฒนาวิธีการเรียนรู้ของเครื่อง การตรวจสอบความถูกต้อง และการเปลี่ยนผ่านไปสู่การใช้งานด้านชีวการแพทย์และทางคลินิก

TDC เป็นโครงการริเริ่มด้านวิทยาศาสตร์แบบเปิด เรายินดีรับการสนับสนุนจากชุมชน

การนำเสนอและสิ่งพิมพ์สำคัญของ TDC

(1) Velez-Arce, Huang, Li, Lin, et al., TDC-2: มูลนิธิต่อเนื่องหลายรูปแบบเพื่อวิทยาศาสตร์การรักษา, bioRxiv, 2024 [กระดาษ]

(2) Huang, Fu, Gao, et al., มูลนิธิปัญญาประดิษฐ์เพื่อวิทยาศาสตร์การรักษา, ชีววิทยาเคมีธรรมชาติ, 2022 [กระดาษ]

(3) Huang, Fu, Gao, et al., ข้อมูลการรักษาทั่วไป: ชุดข้อมูลการเรียนรู้ของเครื่องและงานสำหรับการค้นพบและพัฒนายา, NeurIPS 2021 [กระดาษ] [โปสเตอร์]

(4) Huang และคณะ การเปรียบเทียบการเรียนรู้ของเครื่องระดับโมเลกุลในข้อมูลการรักษาทั่วไป ELLIS ML4Molecules 2021 [กระดาษ] [สไลด์]

(5) Huang และคณะ ข้อมูลการรักษาทั่วไป: ชุดข้อมูลการเรียนรู้ของเครื่องและงานสำหรับการค้นพบและพัฒนายา Baylearn 2021 [สไลด์] [โปสเตอร์]

[6] Huang, Fu, Gao et al., ข้อมูลทั่วไปด้านการรักษา, การประชุมวิชาการ NSF-Harvard เรื่องยาเพื่อการแพร่ระบาดในอนาคต 2020 [#futuretx20] [สไลด์] [วิดีโอ]

[7] พบปะกลุ่มผู้ใช้ TDC มกราคม 2565 [วาระการประชุม]

(8) Zitnik การเรียนรู้ของเครื่องเพื่อแปลจีโนมมะเร็งและเซสชัน Epigenome การประชุมประจำปี AACR ปี 2022 เมษายน 2022

(9) Zitnik การเรียนรู้ไม่กี่ครั้งสำหรับชีววิทยาเครือข่าย คำปราศรัยที่การประชุมเชิงปฏิบัติการ KDD เรื่องการทำเหมืองข้อมูลในชีวสารสนเทศศาสตร์

[10] Zitnik, การเรียนรู้ของเครื่องที่ดำเนินการได้สำหรับการค้นพบและพัฒนายา, Broad Institute, โมเดล, การอนุมานและอัลกอริทึมสัมมนา, ปี 2021

(11) Zitnik, โครงข่ายประสาทเทียมแบบกราฟสำหรับข้อมูลชีวการแพทย์, การเรียนรู้ของเครื่องในชีววิทยาเชิงคอมพิวเตอร์, 2020

(12) Zitnik, กราฟโครงข่ายประสาทเทียมเพื่อระบุโอกาสในการนำยากลับมาใช้ใหม่จากโรคโควิด-19, MIT AI Cures, 2020

คุณสมบัติเฉพาะของ TDC

การพัฒนาด้านการบำบัดที่หลากหลาย : TDC ครอบคลุมงานการเรียนรู้ที่หลากหลาย รวมถึงการค้นพบเป้าหมาย การคัดกรองกิจกรรม ประสิทธิภาพ ความปลอดภัย และการผลิตผลิตภัณฑ์ชีวการแพทย์ รวมถึงโมเลกุลขนาดเล็ก แอนติบอดี และวัคซีน
ชุดข้อมูลที่พร้อมใช้งาน : TDC ขึ้นอยู่กับแพ็คเกจภายนอกน้อยที่สุด ชุดข้อมูล TDC ใดๆ สามารถดึงข้อมูลได้โดยใช้โค้ดเพียงสามบรรทัดเท่านั้น
ฟังก์ชันข้อมูล : TDC มีฟังก์ชันข้อมูลที่ครอบคลุม รวมถึงตัวประเมินข้อมูล การแยกข้อมูลที่มีความหมาย ตัวประมวลผลข้อมูล และออราเคิลการสร้างโมเลกุล
กระดานผู้นำ : TDC ให้เกณฑ์มาตรฐานสำหรับการเปรียบเทียบแบบจำลองที่ยุติธรรม ตลอดจนการพัฒนาและประเมินแบบจำลองอย่างเป็นระบบ
ความคิดริเริ่มโอเพ่นซอร์ส : TDC เป็นความคิดริเริ่มโอเพ่นซอร์ส หากคุณต้องการมีส่วนร่วม โปรดอย่าลังเลที่จะแจ้งให้เราทราบ

ดูการอัปเดตล่าสุดใน TDC ที่นี่!

การติดตั้ง

การใช้ `pip`

หากต้องการติดตั้งการพึ่งพาสภาพแวดล้อมหลักของ TDC ให้ใช้ pip :

pip install PyTDC

หมายเหตุ : TDC อยู่ในรุ่นเบต้า โปรดอัปเดตสำเนาในเครื่องของคุณเป็นประจำโดย

pip install PyTDC --upgrade

ตัวโหลดข้อมูลหลักมีน้ำหนักเบาโดยต้องพึ่งพาแพ็คเกจภายนอกขั้นต่ำ:

numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn

บทช่วยสอน

เรามีบทช่วยสอนเพื่อเริ่มต้นกับ TDC:

ชื่อ	คำอธิบาย
101	ขอแนะนำตัวโหลดข้อมูล TDC
102	แนะนำฟังก์ชันข้อมูล TDC
103.1	เดินผ่านชุดข้อมูลโมเลกุลขนาดเล็กของ TDC
103.2	เดินผ่านชุดข้อมูล TDC Biologics
104	สร้างตัวทำนาย ADME ML 21 ตัวพร้อมโค้ด 15 บรรทัด
105	ออราเคิลการสร้างโมเลกุล
106	การส่งเกณฑ์มาตรฐาน
ดีจีแอล	การสาธิตนำเสนอในการประชุมกลุ่มผู้ใช้ DGL GNN
ยู1.1	การสาธิตนำเสนอในการพบปะกลุ่มผู้ใช้ TDC ครั้งแรก
ยู1.2	การสาธิตนำเสนอในการพบปะกลุ่มผู้ใช้ TDC ครั้งแรก
201	ทรัพยากร TDC-2 และ API เซลล์เดียวหลายโมดัล
202	ทรัพยากร TDC-2 และ PrimeKG
203	ทรัพยากร TDC-2 และ API ภายนอก
204	ดุมรุ่น TDC-2
205	งานทำนายหน้าผาคุณสมบัติโมเลกุล TDC-2

การออกแบบทีดีซี

TDC มีโครงสร้างลำดับชั้นสามชั้นที่เป็นเอกลักษณ์ ซึ่งเป็นความพยายามครั้งแรกในการจัดการการเรียนรู้ของเครื่องเพื่อการบำบัดอย่างเป็นระบบ เราจัด TDC ออกเป็นสาม ปัญหา ที่แตกต่างกัน สำหรับแต่ละปัญหา เรามีชุด งานการเรียนรู้ สุดท้ายนี้ สำหรับแต่ละงาน เรามีชุด ข้อมูล

ในระดับแรก หลังจากที่สังเกตงานการบำบัดชุดใหญ่แล้ว เราจะจัดหมวดหมู่และสรุปประเด็นหลักสามส่วน (เช่น ปัญหา) ซึ่งการเรียนรู้ของเครื่องสามารถเอื้อให้เกิดความก้าวหน้าทางวิทยาศาสตร์ กล่าวคือ การทำนายด้วยอินสแตนซ์เดียว การทำนายหลายอินสแตนซ์ และการสร้าง:

การทำนายอินสแตนซ์เดี่ยว single_pred : การทำนายคุณสมบัติที่กำหนดเอนทิตีชีวการแพทย์แต่ละรายการ
การทำนายหลายอินสแตนซ์ multi_pred : การทำนายทรัพย์สินจากเอนทิตีชีวการแพทย์หลายรายการ
generation รุ่น : การสร้างหน่วยงานชีวการแพทย์ใหม่ๆ ที่พึงประสงค์

ชั้นที่สองในโครงสร้าง TDC จัดเป็นงานการเรียนรู้ การปรับปรุงงานเหล่านี้อาจส่งผลให้เกิดการใช้งานหลายอย่าง รวมถึงการระบุการบำบัดแบบผสมผสานเฉพาะบุคคล การออกแบบแอนติบอดีประเภทใหม่ การปรับปรุงการวินิจฉัยโรค และการค้นหาวิธีการรักษาโรคใหม่ๆ

สุดท้ายนี้ ในระดับที่สามของ TDC แต่ละงานจะถูกสร้างอินสแตนซ์ผ่านชุดข้อมูลหลายชุด สำหรับแต่ละชุดข้อมูล เรามีการแบ่งหลายชุดออกเป็นชุดการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบเพื่อจำลองประเภทของความเข้าใจและลักษณะทั่วไป (เช่น ความสามารถของแบบจำลองในการสรุปสารประกอบที่มองไม่เห็นทั้งหมด หรือเพื่อแก้ไขการตอบสนองของผู้ป่วยต่อโพลีบำบัดแบบละเอียด) ที่จำเป็นสำหรับการเปลี่ยนผ่านไปสู่ การผลิตและการนำไปใช้ทางคลินิก

เครื่องโหลดข้อมูล TDC

TDC มอบคอลเลกชันเวิร์กโฟลว์ที่มี API ระดับสูงที่ใช้งานง่ายสำหรับทั้งผู้เริ่มต้นและผู้เชี่ยวชาญเพื่อสร้างโมเดลการเรียนรู้ของเครื่องใน Python จากโครงสร้าง "ปัญหา -- งานการเรียนรู้ -- ชุดข้อมูล" ที่เป็นโมดูลาร์ (ดูด้านบน) ใน TDC เรามี API สามชั้นเพื่อเข้าถึงงานการเรียนรู้และชุดข้อมูล การออกแบบ API แบบลำดับชั้นนี้ช่วยให้เรารวมงานและชุดข้อมูลใหม่ๆ ได้อย่างง่ายดาย

สำหรับตัวอย่างที่เป็นรูปธรรม หากต้องการรับชุดข้อมูล HIA จากงานการเรียนรู้การบำบัดของ ADME ในปัญหาการทำนายแบบอินสแตนซ์เดียว:

 from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )

คุณสามารถดูชุดข้อมูลทั้งหมดที่เป็นของงานได้ดังนี้:

 from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )

ดูงานการรักษาและชุดข้อมูลทั้งหมดบนเว็บไซต์ TDC!

ฟังก์ชั่นข้อมูล TDC

การแยกชุดข้อมูล

หากต้องการดึงข้อมูลการแยกชุดข้อมูลการฝึกอบรม/การตรวจสอบ/การทดสอบ คุณสามารถพิมพ์ได้

 data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}

คุณสามารถระบุวิธีการแยกของฟังก์ชัน เมล็ดสุ่ม และการแยกเศษส่วนได้ เช่น data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2]) ตรวจสอบหน้าแยกข้อมูลเพื่อดูรายละเอียด

กลยุทธ์ในการประเมินแบบจำลอง

เรามีตัวชี้วัดการประเมินต่างๆ สำหรับงานใน TDC ตามที่อธิบายไว้ในหน้าการประเมินแบบจำลองบนเว็บไซต์ ตัวอย่างเช่น หากต้องการใช้หน่วยเมตริก ROC-AUC คุณสามารถพิมพ์ได้

 from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )

การประมวลผลข้อมูล

TDC มีฟังก์ชันการประมวลผลข้อมูลมากมาย รวมถึงการแปลงฉลาก การปรับสมดุลข้อมูล การจับคู่ข้อมูลกับกราฟ PyG/DGL การสุ่มตัวอย่างเชิงลบ การสืบค้นฐานข้อมูล และอื่นๆ สำหรับการใช้งานฟังก์ชัน โปรดดูหน้าการประมวลผลข้อมูลของเราบนเว็บไซต์ TDC

ออราเคิลการสร้างโมเลกุล

สำหรับงานการสร้างโมเลกุล เรามี oracle มากกว่า 10 รายการสำหรับการเรียนรู้ทั้งแบบมุ่งเน้นเป้าหมายและแบบกระจาย สำหรับรายละเอียดการใช้งาน Oracle แต่ละอัน โปรดดูที่หน้า Oracle บนเว็บไซต์ ตัวอย่างเช่น เราต้องการดึงข้อมูล oracle GSK3Beta:

 from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....' 
  'C[C@@H]1....' ,
  'CCNC(=O)....' , 
  'C[C@@H]1....' ])

# [0.03, 0.02, 0.0, 0.1]

กระดานผู้นำ TDC

ชุดข้อมูลทุกชุดใน TDC ถือเป็นการวัดประสิทธิภาพ และเราจัดเตรียมชุดการฝึกอบรม/การตรวจสอบความถูกต้อง และชุดการทดสอบ พร้อมด้วยการแยกข้อมูลและตัวชี้วัดการประเมินประสิทธิภาพ หากต้องการเข้าร่วมกระดานผู้นำสำหรับเกณฑ์มาตรฐานเฉพาะ ให้ทำตามขั้นตอนเหล่านี้:

ใช้ตัวโหลดข้อมูลการวัดประสิทธิภาพ TDC เพื่อดึงข้อมูลการวัดประสิทธิภาพ
ใช้ชุดการฝึกและ/หรือการตรวจสอบเพื่อฝึกโมเดลของคุณ
ใช้เครื่องประเมินโมเดล TDC เพื่อคำนวณประสิทธิภาพของโมเดลของคุณในชุดทดสอบ
ส่งประสิทธิภาพของชุดทดสอบไปยังลีดเดอร์บอร์ด TDC

เนื่องจากชุดข้อมูลจำนวนมากมีธีมการรักษาร่วมกัน เราจึงจัดเกณฑ์มาตรฐานออกเป็นกลุ่มที่กำหนดอย่างมีความหมาย ซึ่งเราเรียกว่ากลุ่มเกณฑ์มาตรฐาน ชุดข้อมูลและงานภายในกลุ่มการวัดประสิทธิภาพได้รับการดูแลจัดการอย่างรอบคอบและเน้นไปที่ธีม (เช่น TDC มีกลุ่มการวัดประสิทธิภาพเพื่อรองรับการคาดการณ์ ML ของคุณสมบัติ ADMET) แม้ว่ากลุ่มการวัดประสิทธิภาพแต่ละกลุ่มจะประกอบด้วยการวัดประสิทธิภาพหลายรายการ แต่ก็สามารถส่งผลแยกกันสำหรับการวัดประสิทธิภาพแต่ละรายการได้ นี่คือกรอบโค้ดเพื่อเข้าถึงการวัดประสิทธิภาพ:

 from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []

for seed in [ 1 , 2 , 3 , 4 , 5 ]:
    benchmark = group . get ( 'Caco2_Wang' ) 
    # all benchmark names in a benchmark group are stored in group.dataset_names
    predictions = {}
    name = benchmark [ 'name' ]
    train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
    train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
    
        # --------------------------------------------- # 
        #  Train your model using train, valid, test    #
        #  Save test prediction in y_pred_test variable #
        # --------------------------------------------- #
        
    predictions [ name ] = y_pred_test
    predictions_list . append ( predictions )

results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}

สำหรับข้อมูลเพิ่มเติม โปรดเยี่ยมชมที่นี่

อ้างอิงถึงเรา

หากคุณพบว่าข้อมูลทั่วไปด้านการบำบัดมีประโยชน์ โปรดอ้างอิงรายงาน NeurIPS'24 AIDrugX, เอกสาร NeurIPS ของเรา และเอกสารชีววิทยาเคมีธรรมชาติ:

 @inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}

 @article{Huang2021tdc,
  title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
  year={2021}
}

 @article{Huang2022artificial,
  title={Artificial intelligence foundation for therapeutic science},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Nature Chemical Biology},
  year={2022}
}

TDC สร้างขึ้นจากโครงการโอเพ่นซอร์สอื่นๆ นอกจากนี้ โปรดอ้างอิงงานต้นฉบับหากคุณใช้ชุดข้อมูล/ฟังก์ชันเหล่านี้ในการวิจัยของคุณ คุณสามารถค้นหาเอกสารต้นฉบับสำหรับฟังก์ชัน/ชุดข้อมูลได้จากเว็บไซต์

มีส่วนช่วย

TDC เป็นโครงการริเริ่มด้านวิทยาศาสตร์แบบเปิดที่ขับเคลื่อนโดยชุมชน หากต้องการมีส่วนร่วม เข้าร่วม Slack Workspace ของเราและดูคู่มือการมีส่วนร่วม!

ติดต่อ

ติดต่อเราที่ [email protected] หรือเปิดปัญหา GitHub

เซิร์ฟเวอร์ข้อมูล

ชุดข้อมูล TDC จำนวนมากโฮสต์อยู่บน Harvard Dataverse โดยมีตัวระบุถาวรต่อไปนี้ https://doi.org/10.7910/DVN/21LKWG เมื่อ Dataverse อยู่ระหว่างการบำรุงรักษา ชุดข้อมูล TDC จะไม่สามารถเรียกคืนได้ นั่นเกิดขึ้นไม่บ่อยนัก โปรดตรวจสอบสถานะบนเว็บไซต์ Dataverse