تنزيل TDC - تنزيل كود مصدر TDC

TDC

كود الذكاء الاصطناعي

1.0.0

تنزيل

يستعد الذكاء الاصطناعي لإعادة تشكيل العلوم العلاجية. تعتبر Therapeutics Data Commons مبادرة منسقة للوصول إلى قدرة الذكاء الاصطناعي وتقييمها عبر الطرائق العلاجية ومراحل الاكتشاف. وهو يدعم تطوير أساليب الذكاء الاصطناعي ويهدف إلى تحديد الأساس لأساليب الذكاء الاصطناعي الأكثر ملاءمة لتطبيقات اكتشاف الأدوية ولماذا.

يمكن للباحثين في مختلف التخصصات استخدام TDC في العديد من التطبيقات. تعمل المهام القابلة للحل بواسطة الذكاء الاصطناعي ومجموعات البيانات الجاهزة للذكاء الاصطناعي والمعايير المنسقة في TDC كنقطة التقاء بين علماء الكيمياء الحيوية وعلماء الذكاء الاصطناعي. تعمل TDC على تسهيل التقدم الخوارزمي والعلمي وتسريع تطوير أساليب التعلم الآلي والتحقق من صحتها والانتقال إلى التنفيذ الطبي الحيوي والسريري.

TDC هي مبادرة العلوم المفتوحة. نحن نرحب بالمساهمات من المجتمع.

العروض التقديمية والمنشورات الرئيسية لـ TDC

[1] فيليز-أرس، هوانغ، لي، لين، وآخرون، TDC-2: مؤسسة متعددة الوسائط للعلوم العلاجية، bioRxiv، 2024 [ورقة]

[2] هوانغ، فو، جاو، وآخرون، مؤسسة الذكاء الاصطناعي للعلوم العلاجية، علم الأحياء الكيميائي الطبيعي، 2022 [ورقة]

[3] هوانغ، فو، غاو، وآخرون، البيانات العلاجية المشتركة: مجموعات بيانات التعلم الآلي ومهام اكتشاف الأدوية وتطويرها، NeurIPS 2021 [ورقة] [ملصق]

[4] هوانغ وآخرون، قياس أداء التعلم الآلي الجزيئي في البيانات العلاجية العامة، ELLIS ML4Molecules 2021 [ورقة] [شرائح]

[5] هوانغ وآخرون، البيانات العلاجية المشتركة: مجموعات بيانات التعلم الآلي ومهام اكتشاف الأدوية وتطويرها، Baylearn 2021 [الشرائح] [ملصق]

[6] هوانغ، فو، غاو وآخرون، بيانات العلاج المشتركة، ندوة NSF-Harvard حول أدوية الأوبئة المستقبلية 2020 [#futuretx20] [الشرائح] [فيديو]

[7] لقاء مجموعة مستخدمي TDC، يناير 2022 [جدول الأعمال]

[8] زيتنيك، جلسة التعلم الآلي لترجمة جينوم السرطان والإبيجينوم، الاجتماع السنوي لـ AACR لعام 2022، أبريل 2022

[9] زيتنيك، التعلم المحدود لبيولوجيا الشبكة، كلمة رئيسية في ورشة عمل KDD حول استخراج البيانات في المعلوماتية الحيوية

[10] زيتنيك، التعلم الآلي القابل للتنفيذ لاكتشاف الأدوية وتطويرها، المعهد الواسع، ندوة النماذج والاستدلال والخوارزميات، 2021

[11] زيتنيك، رسم الشبكات العصبية للبيانات الطبية الحيوية، التعلم الآلي في علم الأحياء الحسابي، 2020

[12] زيتنيك، رسم بياني للشبكات العصبية لتحديد فرص إعادة استخدام أدوية كوفيد-19، علاجات الذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا، 2020

الميزات الفريدة لـ TDC

مجالات متنوعة لتطوير العلاجات : يغطي TDC مجموعة واسعة من مهام التعلم، بما في ذلك اكتشاف الأهداف وفحص النشاط والفعالية والسلامة والتصنيع عبر المنتجات الطبية الحيوية، بما في ذلك الجزيئات الصغيرة والأجسام المضادة واللقاحات.
مجموعات البيانات الجاهزة للاستخدام : تعتمد TDC بشكل طفيف على الحزم الخارجية. يمكن استرجاع أي مجموعة بيانات TDC باستخدام ثلاثة أسطر من التعليمات البرمجية فقط.
وظائف البيانات : توفر TDC وظائف بيانات واسعة النطاق، بما في ذلك مقيمي البيانات، وتقسيمات البيانات ذات المعنى، ومعالجات البيانات، وأوراكل توليد الجزيئات.
لوحات المتصدرين : توفر TDC معايير لمقارنة النماذج العادلة وتطوير النماذج وتقييمها بشكل منهجي.
مبادرة مفتوحة المصدر : TDC هي مبادرة مفتوحة المصدر. إذا كنت ترغب في المشاركة، من فضلك لا تتردد في إعلامنا بذلك.

انظر هنا للحصول على آخر التحديثات في TDC!

تثبيت

باستخدام `pip`

لتثبيت تبعيات البيئة الأساسية لـ TDC، استخدم pip :

pip install PyTDC

ملحوظة : TDC موجود في الإصدار التجريبي. يرجى تحديث نسختك المحلية بانتظام عن طريق

pip install PyTDC --upgrade

تتميز أدوات تحميل البيانات الأساسية بخفة الوزن مع الحد الأدنى من الاعتماد على الحزم الخارجية:

numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn

دروس

نحن نقدم دروسًا للبدء في استخدام TDC:

اسم	وصف
101	تقديم أدوات تحميل بيانات TDC
102	تقديم وظائف بيانات TDC
103.1	قم بالتجول عبر مجموعات بيانات الجزيئات الصغيرة TDC
103.2	قم بالتجول عبر مجموعات بيانات TDC Biologics
104	قم بإنشاء 21 تنبؤًا لـ ADME ML مع 15 سطرًا من التعليمات البرمجية
105	أوراكل توليد الجزيء
106	تقديم المعيار
دغل	العرض التوضيحي المقدم في اجتماع مجموعة مستخدمي DGL GNN
U1.1	تم تقديم العرض التوضيحي في أول لقاء لمجموعة مستخدمي TDC
U1.2	تم تقديم العرض التوضيحي في أول لقاء لمجموعة مستخدمي TDC
201	TDC-2 للموارد وواجهة برمجة التطبيقات أحادية الخلية متعددة الوسائط
202	TDC-2 الموارد وPrimeKG
203	TDC-2 الموارد وواجهات برمجة التطبيقات الخارجية
204	محور نموذج TDC-2
205	TDC-2 مهمة التنبؤ بجرف الممتلكات الجزيئية

تصميم TDC

تمتلك TDC هيكلًا هرميًا فريدًا من ثلاثة مستويات، والذي، على حد علمنا، هو المحاولة الأولى لتنظيم التعلم الآلي للعلاجات بشكل منهجي. نحن ننظم TDC إلى ثلاث مشاكل متميزة. لكل مشكلة، نقدم مجموعة من المهام التعليمية . وأخيرا، لكل مهمة، نقدم سلسلة من مجموعات البيانات .

في المستوى الأول، بعد ملاحظة مجموعة كبيرة من المهام العلاجية، قمنا بتصنيف واستخلاص ثلاثة مجالات رئيسية (أي المشكلات) حيث يمكن للتعلم الآلي أن يسهل التقدم العلمي، وهي التنبؤ بمثيل واحد، والتنبؤ بمثيل متعدد، والتوليد:

التنبؤ بمثيل واحد single_pred : التنبؤ بالملكية المعطاة لكيان طبي حيوي فردي.
التنبؤ متعدد المثيلات multi_pred : التنبؤ بالملكية في ضوء كيانات طبية حيوية متعددة.
generation الجيل: توليد كيانات طبية حيوية جديدة مرغوبة.

يتم تنظيم المستوى الثاني في هيكل TDC في مهام التعلم. يمكن أن يؤدي تحسين هذه المهام إلى العديد من التطبيقات، بما في ذلك تحديد العلاجات التوافقية الشخصية، وتصميم فئات جديدة من الأجسام المضادة، وتحسين تشخيص الأمراض، وإيجاد علاجات جديدة للأمراض الناشئة.

وأخيرًا، في المستوى الثالث من TDC، يتم إنشاء مثيل لكل مهمة عبر مجموعات بيانات متعددة. بالنسبة لكل مجموعة بيانات، نقدم عدة تقسيمات إلى مجموعات التدريب والتحقق من الصحة والاختبار لمحاكاة نوع الفهم والتعميم (على سبيل المثال، قدرة النموذج على التعميم على مركبات غير مرئية تمامًا أو حل استجابة المريض للعلاج المتعدد بشكل محبب) اللازمة للانتقال إلى الإنتاج والتنفيذ السريري.

محمل بيانات TDC

توفر TDC مجموعة من مهام سير العمل مع واجهات برمجة تطبيقات بديهية وعالية المستوى لكل من المبتدئين والخبراء لإنشاء نماذج التعلم الآلي في Python. بناءً على هيكل "المشكلة - مهمة التعلم - مجموعة البيانات" المعيارية (انظر أعلاه) في TDC، نقدم واجهة برمجة تطبيقات ثلاثية الطبقات للوصول إلى أي مهمة تعليمية ومجموعة بيانات. يتيح لنا تصميم واجهة برمجة التطبيقات الهرمي هذا دمج المهام ومجموعات البيانات الجديدة بسهولة.

للحصول على مثال ملموس، للحصول على مجموعة بيانات HIA من مهمة التعلم العلاجي ADME في مشكلة التنبؤ بمثيل واحد:

 from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )

يمكنك رؤية كافة مجموعات البيانات التي تنتمي إلى مهمة على النحو التالي:

 from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )

شاهد جميع المهام العلاجية ومجموعات البيانات على موقع TDC!

وظائف بيانات TDC

انقسامات مجموعة البيانات

لاسترداد تقسيم مجموعة بيانات التدريب/التحقق من الصحة/الاختبار، يمكنك الكتابة

 data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}

يمكنك تحديد طريقة تقسيم الدالة، والبذرة العشوائية، والكسور المقسمة، على سبيل المثال، data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2]) . تحقق من صفحة تقسيم البيانات للحصول على التفاصيل.

استراتيجيات التقييم النموذجي

نحن نقدم مقاييس تقييم متنوعة للمهام في TDC، الموضحة في صفحة تقييم النموذج على الموقع الإلكتروني. على سبيل المثال، لاستخدام المقياس ROC-AUC، يمكنك الكتابة

 from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )

معالجة البيانات

توفر TDC العديد من وظائف معالجة البيانات، بما في ذلك تحويل الملصقات، وموازنة البيانات، وإقران البيانات بالرسوم البيانية PyG/DGL، وأخذ العينات السلبية، والاستعلام عن قاعدة البيانات، وما إلى ذلك. للتعرف على استخدام الوظيفة، راجع صفحة معالجة البيانات الخاصة بنا على موقع TDC الإلكتروني.

أوراكل توليد الجزيء

بالنسبة لمهام إنشاء الجزيئات، فإننا نقدم أكثر من 10 أوراكل لكل من التعلم الموجه نحو الهدف والتوزيع. للحصول على استخدام تفصيلي لكل أوراكل، يرجى إلقاء نظرة على صفحة أوراكل على الموقع. على سبيل المثال، نريد استرداد أوراكل GSK3Beta:

 from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....' 
  'C[C@@H]1....' ,
  'CCNC(=O)....' , 
  'C[C@@H]1....' ])

# [0.03, 0.02, 0.0, 0.1]

المتصدرين TDC

تعتبر كل مجموعة بيانات في TDC بمثابة معيار مرجعي، ونحن نقدم التدريب/التحقق من الصحة ومجموعات الاختبار لها، بالإضافة إلى تقسيمات البيانات ومقاييس تقييم الأداء. للمشاركة في لوحة المتصدرين لمعيار محدد، اتبع الخطوات التالية:

استخدم أداة تحميل البيانات المعيارية TDC لاسترداد المعيار.
استخدم مجموعة التدريب و/أو التحقق من الصحة لتدريب النموذج الخاص بك.
استخدم مقيم نموذج TDC لحساب أداء النموذج الخاص بك في مجموعة الاختبار.
أرسل أداء مجموعة الاختبار إلى لوحة صدارة TDC.

نظرًا لأن العديد من مجموعات البيانات تشترك في موضوع علاجي، فإننا ننظم المعايير في مجموعات محددة بشكل مفيد، والتي نشير إليها على أنها مجموعات مرجعية. يتم تنظيم مجموعات البيانات والمهام ضمن مجموعة قياس الأداء بعناية وتتمحور حول موضوع ما (على سبيل المثال، تحتوي TDC على مجموعة قياس أداء لدعم تنبؤات التعلم الآلي لخصائص ADMET). في حين أن كل مجموعة مرجعية تتكون من عدة معايير مرجعية، فمن الممكن تقديم نتائج لكل معيار بشكل منفصل. فيما يلي إطار التعليمات البرمجية للوصول إلى المعايير:

 from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []

for seed in [ 1 , 2 , 3 , 4 , 5 ]:
    benchmark = group . get ( 'Caco2_Wang' ) 
    # all benchmark names in a benchmark group are stored in group.dataset_names
    predictions = {}
    name = benchmark [ 'name' ]
    train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
    train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
    
        # --------------------------------------------- # 
        #  Train your model using train, valid, test    #
        #  Save test prediction in y_pred_test variable #
        # --------------------------------------------- #
        
    predictions [ name ] = y_pred_test
    predictions_list . append ( predictions )

results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}

لمزيد من المعلومات، قم بزيارة هنا.

استشهد بنا

إذا وجدت Therapeutics Data Commons مفيدًا، فاستشهد بمقالة NeurIPS'24 AIDrugX، ومقالة NeurIPS الخاصة بنا، ومقالة Nature Chemical Biology:

 @inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}

 @article{Huang2021tdc,
  title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
  year={2021}
}

 @article{Huang2022artificial,
  title={Artificial intelligence foundation for therapeutic science},
  author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley, 
          Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
  journal={Nature Chemical Biology},
  year={2022}
}

تم بناء TDC على رأس المشاريع الأخرى مفتوحة المصدر. بالإضافة إلى ذلك، يرجى الاستشهاد بالعمل الأصلي إذا استخدمت مجموعات البيانات/الوظائف هذه في بحثك. يمكنك العثور على الورقة الأصلية للوظيفة/مجموعة البيانات على الموقع الإلكتروني.

يساهم

TDC هي مبادرة مجتمعية ومفتوحة للعلوم. للمشاركة، انضم إلى Slack Workspace الخاص بنا واطلع على دليل المساهمة!

اتصال

تواصل معنا على [email protected] أو افتح مشكلة GitHub.

خادم البيانات

تتم استضافة العديد من مجموعات بيانات TDC على Harvard Dataverse بالمعرف الثابت التالي https://doi.org/10.7910/DVN/21LKWG. عندما يكون Dataverse قيد الصيانة، لا يمكن استرداد مجموعات بيانات TDC. وهذا نادرا ما يحدث. يرجى التحقق من الحالة على موقع Dataverse.