الموقع | ورقة NeurIPS 2024 AIDrugX | علم الأحياء الكيميائي الطبيعي 2022 ورقة | ورقة NeurIPS 2021 | ورقة طويلة | الركود | القائمة البريدية لـ TDC | توثيق TDC | إرشادات المساهمة
يستعد الذكاء الاصطناعي لإعادة تشكيل العلوم العلاجية. تعتبر Therapeutics Data Commons مبادرة منسقة للوصول إلى قدرة الذكاء الاصطناعي وتقييمها عبر الطرائق العلاجية ومراحل الاكتشاف. وهو يدعم تطوير أساليب الذكاء الاصطناعي ويهدف إلى تحديد الأساس لأساليب الذكاء الاصطناعي الأكثر ملاءمة لتطبيقات اكتشاف الأدوية ولماذا.
يمكن للباحثين في مختلف التخصصات استخدام TDC في العديد من التطبيقات. تعمل المهام القابلة للحل بواسطة الذكاء الاصطناعي ومجموعات البيانات الجاهزة للذكاء الاصطناعي والمعايير المنسقة في TDC كنقطة التقاء بين علماء الكيمياء الحيوية وعلماء الذكاء الاصطناعي. تعمل TDC على تسهيل التقدم الخوارزمي والعلمي وتسريع تطوير أساليب التعلم الآلي والتحقق من صحتها والانتقال إلى التنفيذ الطبي الحيوي والسريري.
TDC هي مبادرة العلوم المفتوحة. نحن نرحب بالمساهمات من المجتمع.
[1] فيليز-أرس، هوانغ، لي، لين، وآخرون، TDC-2: مؤسسة متعددة الوسائط للعلوم العلاجية، bioRxiv، 2024 [ورقة]
[2] هوانغ، فو، جاو، وآخرون، مؤسسة الذكاء الاصطناعي للعلوم العلاجية، علم الأحياء الكيميائي الطبيعي، 2022 [ورقة]
[3] هوانغ، فو، غاو، وآخرون، البيانات العلاجية المشتركة: مجموعات بيانات التعلم الآلي ومهام اكتشاف الأدوية وتطويرها، NeurIPS 2021 [ورقة] [ملصق]
[4] هوانغ وآخرون، قياس أداء التعلم الآلي الجزيئي في البيانات العلاجية العامة، ELLIS ML4Molecules 2021 [ورقة] [شرائح]
[5] هوانغ وآخرون، البيانات العلاجية المشتركة: مجموعات بيانات التعلم الآلي ومهام اكتشاف الأدوية وتطويرها، Baylearn 2021 [الشرائح] [ملصق]
[6] هوانغ، فو، غاو وآخرون، بيانات العلاج المشتركة، ندوة NSF-Harvard حول أدوية الأوبئة المستقبلية 2020 [#futuretx20] [الشرائح] [فيديو]
[7] لقاء مجموعة مستخدمي TDC، يناير 2022 [جدول الأعمال]
[8] زيتنيك، جلسة التعلم الآلي لترجمة جينوم السرطان والإبيجينوم، الاجتماع السنوي لـ AACR لعام 2022، أبريل 2022
[9] زيتنيك، التعلم المحدود لبيولوجيا الشبكة، كلمة رئيسية في ورشة عمل KDD حول استخراج البيانات في المعلوماتية الحيوية
[10] زيتنيك، التعلم الآلي القابل للتنفيذ لاكتشاف الأدوية وتطويرها، المعهد الواسع، ندوة النماذج والاستدلال والخوارزميات، 2021
[11] زيتنيك، رسم الشبكات العصبية للبيانات الطبية الحيوية، التعلم الآلي في علم الأحياء الحسابي، 2020
[12] زيتنيك، رسم بياني للشبكات العصبية لتحديد فرص إعادة استخدام أدوية كوفيد-19، علاجات الذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا، 2020
انظر هنا للحصول على آخر التحديثات في TDC!
pip
لتثبيت تبعيات البيئة الأساسية لـ TDC، استخدم pip
:
pip install PyTDC
ملحوظة : TDC موجود في الإصدار التجريبي. يرجى تحديث نسختك المحلية بانتظام عن طريق
pip install PyTDC --upgrade
تتميز أدوات تحميل البيانات الأساسية بخفة الوزن مع الحد الأدنى من الاعتماد على الحزم الخارجية:
numpy, pandas, tqdm, scikit-learn, fuzzywuzzy, seaborn
نحن نقدم دروسًا للبدء في استخدام TDC:
اسم | وصف |
---|---|
101 | تقديم أدوات تحميل بيانات TDC |
102 | تقديم وظائف بيانات TDC |
103.1 | قم بالتجول عبر مجموعات بيانات الجزيئات الصغيرة TDC |
103.2 | قم بالتجول عبر مجموعات بيانات TDC Biologics |
104 | قم بإنشاء 21 تنبؤًا لـ ADME ML مع 15 سطرًا من التعليمات البرمجية |
105 | أوراكل توليد الجزيء |
106 | تقديم المعيار |
دغل | العرض التوضيحي المقدم في اجتماع مجموعة مستخدمي DGL GNN |
U1.1 | تم تقديم العرض التوضيحي في أول لقاء لمجموعة مستخدمي TDC |
U1.2 | تم تقديم العرض التوضيحي في أول لقاء لمجموعة مستخدمي TDC |
201 | TDC-2 للموارد وواجهة برمجة التطبيقات أحادية الخلية متعددة الوسائط |
202 | TDC-2 الموارد وPrimeKG |
203 | TDC-2 الموارد وواجهات برمجة التطبيقات الخارجية |
204 | محور نموذج TDC-2 |
205 | TDC-2 مهمة التنبؤ بجرف الممتلكات الجزيئية |
تمتلك TDC هيكلًا هرميًا فريدًا من ثلاثة مستويات، والذي، على حد علمنا، هو المحاولة الأولى لتنظيم التعلم الآلي للعلاجات بشكل منهجي. نحن ننظم TDC إلى ثلاث مشاكل متميزة. لكل مشكلة، نقدم مجموعة من المهام التعليمية . وأخيرا، لكل مهمة، نقدم سلسلة من مجموعات البيانات .
في المستوى الأول، بعد ملاحظة مجموعة كبيرة من المهام العلاجية، قمنا بتصنيف واستخلاص ثلاثة مجالات رئيسية (أي المشكلات) حيث يمكن للتعلم الآلي أن يسهل التقدم العلمي، وهي التنبؤ بمثيل واحد، والتنبؤ بمثيل متعدد، والتوليد:
single_pred
: التنبؤ بالملكية المعطاة لكيان طبي حيوي فردي.multi_pred
: التنبؤ بالملكية في ضوء كيانات طبية حيوية متعددة.generation
الجيل: توليد كيانات طبية حيوية جديدة مرغوبة.يتم تنظيم المستوى الثاني في هيكل TDC في مهام التعلم. يمكن أن يؤدي تحسين هذه المهام إلى العديد من التطبيقات، بما في ذلك تحديد العلاجات التوافقية الشخصية، وتصميم فئات جديدة من الأجسام المضادة، وتحسين تشخيص الأمراض، وإيجاد علاجات جديدة للأمراض الناشئة.
وأخيرًا، في المستوى الثالث من TDC، يتم إنشاء مثيل لكل مهمة عبر مجموعات بيانات متعددة. بالنسبة لكل مجموعة بيانات، نقدم عدة تقسيمات إلى مجموعات التدريب والتحقق من الصحة والاختبار لمحاكاة نوع الفهم والتعميم (على سبيل المثال، قدرة النموذج على التعميم على مركبات غير مرئية تمامًا أو حل استجابة المريض للعلاج المتعدد بشكل محبب) اللازمة للانتقال إلى الإنتاج والتنفيذ السريري.
توفر TDC مجموعة من مهام سير العمل مع واجهات برمجة تطبيقات بديهية وعالية المستوى لكل من المبتدئين والخبراء لإنشاء نماذج التعلم الآلي في Python. بناءً على هيكل "المشكلة - مهمة التعلم - مجموعة البيانات" المعيارية (انظر أعلاه) في TDC، نقدم واجهة برمجة تطبيقات ثلاثية الطبقات للوصول إلى أي مهمة تعليمية ومجموعة بيانات. يتيح لنا تصميم واجهة برمجة التطبيقات الهرمي هذا دمج المهام ومجموعات البيانات الجديدة بسهولة.
للحصول على مثال ملموس، للحصول على مجموعة بيانات HIA من مهمة التعلم العلاجي ADME في مشكلة التنبؤ بمثيل واحد:
from tdc . single_pred import ADME
data = ADME ( name = 'HIA_Hou' )
# split into train/val/test with scaffold split methods
split = data . get_split ( method = 'scaffold' )
# get the entire data in the various formats
data . get_data ( format = 'df' )
يمكنك رؤية كافة مجموعات البيانات التي تنتمي إلى مهمة على النحو التالي:
from tdc . utils import retrieve_dataset_names
retrieve_dataset_names ( 'ADME' )
شاهد جميع المهام العلاجية ومجموعات البيانات على موقع TDC!
لاسترداد تقسيم مجموعة بيانات التدريب/التحقق من الصحة/الاختبار، يمكنك الكتابة
data = X ( name = Y )
data . get_split ( seed = 42 )
# {'train': df_train, 'val': df_val, 'test': df_test}
يمكنك تحديد طريقة تقسيم الدالة، والبذرة العشوائية، والكسور المقسمة، على سبيل المثال، data.get_split(method = 'scaffold', seed = 1, frac = [0.7, 0.1, 0.2])
. تحقق من صفحة تقسيم البيانات للحصول على التفاصيل.
نحن نقدم مقاييس تقييم متنوعة للمهام في TDC، الموضحة في صفحة تقييم النموذج على الموقع الإلكتروني. على سبيل المثال، لاستخدام المقياس ROC-AUC، يمكنك الكتابة
from tdc import Evaluator
evaluator = Evaluator ( name = 'ROC-AUC' )
score = evaluator ( y_true , y_pred )
توفر TDC العديد من وظائف معالجة البيانات، بما في ذلك تحويل الملصقات، وموازنة البيانات، وإقران البيانات بالرسوم البيانية PyG/DGL، وأخذ العينات السلبية، والاستعلام عن قاعدة البيانات، وما إلى ذلك. للتعرف على استخدام الوظيفة، راجع صفحة معالجة البيانات الخاصة بنا على موقع TDC الإلكتروني.
بالنسبة لمهام إنشاء الجزيئات، فإننا نقدم أكثر من 10 أوراكل لكل من التعلم الموجه نحو الهدف والتوزيع. للحصول على استخدام تفصيلي لكل أوراكل، يرجى إلقاء نظرة على صفحة أوراكل على الموقع. على سبيل المثال، نريد استرداد أوراكل GSK3Beta:
from tdc import Oracle
oracle = Oracle ( name = 'GSK3B' )
oracle ([ 'CC(C)(C)....'
'C[C@@H]1....' ,
'CCNC(=O)....' ,
'C[C@@H]1....' ])
# [0.03, 0.02, 0.0, 0.1]
تعتبر كل مجموعة بيانات في TDC بمثابة معيار مرجعي، ونحن نقدم التدريب/التحقق من الصحة ومجموعات الاختبار لها، بالإضافة إلى تقسيمات البيانات ومقاييس تقييم الأداء. للمشاركة في لوحة المتصدرين لمعيار محدد، اتبع الخطوات التالية:
استخدم أداة تحميل البيانات المعيارية TDC لاسترداد المعيار.
استخدم مجموعة التدريب و/أو التحقق من الصحة لتدريب النموذج الخاص بك.
استخدم مقيم نموذج TDC لحساب أداء النموذج الخاص بك في مجموعة الاختبار.
أرسل أداء مجموعة الاختبار إلى لوحة صدارة TDC.
نظرًا لأن العديد من مجموعات البيانات تشترك في موضوع علاجي، فإننا ننظم المعايير في مجموعات محددة بشكل مفيد، والتي نشير إليها على أنها مجموعات مرجعية. يتم تنظيم مجموعات البيانات والمهام ضمن مجموعة قياس الأداء بعناية وتتمحور حول موضوع ما (على سبيل المثال، تحتوي TDC على مجموعة قياس أداء لدعم تنبؤات التعلم الآلي لخصائص ADMET). في حين أن كل مجموعة مرجعية تتكون من عدة معايير مرجعية، فمن الممكن تقديم نتائج لكل معيار بشكل منفصل. فيما يلي إطار التعليمات البرمجية للوصول إلى المعايير:
from tdc import BenchmarkGroup
group = BenchmarkGroup ( name = 'ADMET_Group' , path = 'data/' )
predictions_list = []
for seed in [ 1 , 2 , 3 , 4 , 5 ]:
benchmark = group . get ( 'Caco2_Wang' )
# all benchmark names in a benchmark group are stored in group.dataset_names
predictions = {}
name = benchmark [ 'name' ]
train_val , test = benchmark [ 'train_val' ], benchmark [ 'test' ]
train , valid = group . get_train_valid_split ( benchmark = name , split_type = 'default' , seed = seed )
# --------------------------------------------- #
# Train your model using train, valid, test #
# Save test prediction in y_pred_test variable #
# --------------------------------------------- #
predictions [ name ] = y_pred_test
predictions_list . append ( predictions )
results = group . evaluate_many ( predictions_list )
# {'caco2_wang': [6.328, 0.101]}
لمزيد من المعلومات، قم بزيارة هنا.
إذا وجدت Therapeutics Data Commons مفيدًا، فاستشهد بمقالة NeurIPS'24 AIDrugX، ومقالة NeurIPS الخاصة بنا، ومقالة Nature Chemical Biology:
@inproceedings{
velez-arce2024signals,
title={Signals in the Cells: Multimodal and Contextualized Machine Learning Foundations for Therapeutics},
author={Alejandro Velez-Arce and Kexin Huang and Michelle M Li and Xiang Lin and Wenhao Gao and Bradley Pentelute and Tianfan Fu and Manolis Kellis and Marinka Zitnik},
booktitle={NeurIPS 2024 Workshop on AI for New Drug Modalities},
year={2024},
url={https://openreview.net/forum?id=kL8dlYp6IM}
}
@article{Huang2021tdc,
title={Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Proceedings of Neural Information Processing Systems, NeurIPS Datasets and Benchmarks},
year={2021}
}
@article{Huang2022artificial,
title={Artificial intelligence foundation for therapeutic science},
author={Huang, Kexin and Fu, Tianfan and Gao, Wenhao and Zhao, Yue and Roohani, Yusuf and Leskovec, Jure and Coley,
Connor W and Xiao, Cao and Sun, Jimeng and Zitnik, Marinka},
journal={Nature Chemical Biology},
year={2022}
}
تم بناء TDC على رأس المشاريع الأخرى مفتوحة المصدر. بالإضافة إلى ذلك، يرجى الاستشهاد بالعمل الأصلي إذا استخدمت مجموعات البيانات/الوظائف هذه في بحثك. يمكنك العثور على الورقة الأصلية للوظيفة/مجموعة البيانات على الموقع الإلكتروني.
TDC هي مبادرة مجتمعية ومفتوحة للعلوم. للمشاركة، انضم إلى Slack Workspace الخاص بنا واطلع على دليل المساهمة!
تواصل معنا على [email protected] أو افتح مشكلة GitHub.
تتم استضافة العديد من مجموعات بيانات TDC على Harvard Dataverse بالمعرف الثابت التالي https://doi.org/10.7910/DVN/21LKWG. عندما يكون Dataverse قيد الصيانة، لا يمكن استرداد مجموعات بيانات TDC. وهذا نادرا ما يحدث. يرجى التحقق من الحالة على موقع Dataverse.
تم ترخيص قاعدة بيانات TDC بموجب ترخيص MIT. لاستخدام مجموعة البيانات الفردية، يرجى الرجوع إلى ترخيص مجموعة البيانات على الموقع الإلكتروني.