https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
يعد البحث الجزيئي مهمًا في الكيمياء والبيولوجيا والمعلوماتية لتحديد الهياكل الجزيئية ضمن مجموعات البيانات الكبيرة، وتحسين اكتشاف المعرفة والابتكار، وجعل البيانات الكيميائية عادلة (يمكن العثور عليها، ويمكن الوصول إليها، وقابلة للتشغيل المتبادل، وقابلة لإعادة الاستخدام). تعد خوارزميات البحث عن البوليمرات أقل تطورًا بشكل ملحوظ من تلك الخاصة بالجزيئات الصغيرة لأن بحث البوليمر يعتمد على البحث باسم البوليمر، وهو ما قد يكون صعبًا لأن تسمية البوليمر واسعة للغاية (على سبيل المثال، البولي إيثيلين)، ومعقدة بالنسبة للهياكل الكيميائية المعقدة، وغالبًا ما لا تتوافق لاتفاقيات IUPAC الرسمية. يقتصر البحث عن التركيب الكيميائي في البوليمرات على الهياكل الأساسية، مثل المونومرات، دون الوعي بالاتصال أو الطوبولوجيا. يقدم هذا العمل لغة استعلام جديدة وخوارزمية بحث اجتياز الرسم البياني للبوليمرات التي توفر طريقة البحث الأولى القادرة على التقاط جميع الهياكل الكيميائية الموجودة في البوليمرات بشكل كامل. تتيح لغة استعلام BigSMARTS، وهي امتداد للغة SMARTS ذات الجزيئات الصغيرة، للمستخدمين كتابة استعلامات تحدد المونومر وبحث المجموعة الوظيفية في أجزاء مختلفة من البوليمر، مثل الكتلة الوسطى من triblock، والسلسلة الجانبية للكسب غير المشروع، و العمود الفقري لوحدة التكرار. تعتمد خوارزمية البحث عن البنية التحتية على اجتياز تمثيلات الرسم البياني لوظائف التوليد للرسوم البيانية العشوائية للبوليمرات. من الناحية التشغيلية، تحدد الخوارزمية أولاً الدورات التي تمثل المونومرات ثم المجموعات النهائية، وأخيرًا تقوم بإجراء بحث عميق أولاً لمطابقة الرسوم البيانية الفرعية بأكملها. للتحقق من صحة الخوارزمية، تم البحث في مئات الاستعلامات مقابل مئات من الكيمياء المستهدفة والطوبولوجيات من الأدبيات، مع ما يقرب من 440.000 زوج من الاستعلامات المستهدفة. توفر هذه الأداة خوارزمية مفصلة يمكن تنفيذها في محركات البحث لتزويد نتائج البحث بمطابقة كاملة لاتصال المونومر وطوبولوجيا البوليمر.
الجدول 1. مطابقة الاستعلامات ذات القيود المتزايدة على المجموعة المستهدفة.
بيج سمارتس | معنى | # BigSMILES الزيارات |
---|---|---|
CCO | SMARTS للإيثانول الذي يبحث في BigSMILES بالكامل | 207 |
{[]CCO[]} | SMARTS للإيثانول الذي يقوم بترجمة الزيارات إلى وحدات التكرار | 198 |
{[][<]CCO[>][]} | استعلام PEG مع مجموعات نهاية أحرف البدل التي تعمل على ترجمة النتائج إلى العمود الفقري لوحدة التكرار | 68 |
{[][<][CH2][CH2]O[>][]} | يمنع التطابقات مع المجموعات المعلقة غير المحددة في الاستعلام | 57 |
{[][<][CH2][CH2]O[>],!*[]} | يمنع التطابقات مع وحدات التكرار الإضافية غير المحددة في الاستعلام | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | يمنع التطابقات مع وحدات التكرار الإضافية ومجموعات النهاية غير المحددة في الاستعلام | 1 |
الجدول 2. كرر طفرات الوحدة التي لا تؤثر على الأهداف المطابقة.
بيج سمارتس | يتغير | # BigSMILES الزيارات |
---|---|---|
{[][<]CCO[>][]} | بحث العمود الفقري PEG | 68 |
{[][>]الرئيس التنفيذي للCO[<][]} | التغيير في واصفات الترابط | 68 |
{[][<]COC[>][]} | تحول الإطار | 68 |
{[][<]OCC[>][]} | انقلاب | 68 |
{[][<]C[<2],[>2]CO[>][]} | ينقسم | 68 |
{[][<]CCO[>],[<]CCO[>][]} | الازدواجية | 68 |
الجدول 3. كتلة كوبوليمر الاقتران الهدف الاستعلام.
بيج سمارتس | يتغير | # BigSMILES الزيارات |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | البنية التحتية لكتلة البوليسترين -ب -بولي أكريليت مع رابط البدل | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | لا يوجد رابط البدل | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | اقلب الكتل | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | وحدات تكرار من الرأس إلى الذيل فقط | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | كائن عشوائي واحد، ولكن لا يزال يشفر diblock! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | تمثيل المجموعة النهائية الضمنية/الصريحة | 7 |
الجدول 4. الاقتران بالهدف استعلام شبكة البوليمر.
بيج سمارتس | يتغير | # BigSMILES الزيارات |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | شبكة بوليمر A2 + B3 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | وحدة تكرار متداخلة مكررة | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | تقسيم وحدة التكرار المتداخلة | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | التغيير في واصفات الترابط | 2 |
الجدول 5. استعلامات الرسم البياني الطوبولوجي.
بيج سمارتس | معنى | # BigSMILES الزيارات |
---|---|---|
{[][]} | كائن عشوائي بدل، يتطابق مع جميع البوليمرات | 489 |
{[][]}!{[][]} | كائن عشوائي واحد فقط، لا يتطابق مع diblocks أو triblocks أو النجوم | 382 |
{[][]}?*{[][]} | البنية التحتية diblock، يمكن أن تتطابق مع triblocks وtetrablocks | 107 |
{[][]}?*{[][]}!{[][]} | البنية التحتية diblock مع عدم وجود كتل أخرى | 78 |
{[][]}?*{[][]}?*{[][]} | البنية التحتية triblock، يمكن أن تتطابق مع tetrablocks وhexablocks | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | البنية التحتية triblock مع عدم وجود كتل أخرى | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | طوبولوجيا مجزأة (كائن متداخل على طول العمود الفقري) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | طوبولوجيا الكسب غير المشروع (كائن متداخل على السلسلة الجانبية) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | بنية تحتية من البوليمر على شكل نجمة ذات 3 أذرع | 21 |
الجدول 6. المجموعات الوظيفية على طول الاستعلامات الأساسية.
بيج سمارتس | فئة الكيمياء | # BigSMILES الزيارات |
---|---|---|
{[][<]C(=O)O?*[>][]} | البوليستر | 75 |
{[][<]OC(=O)O?*[>][]} | البولي | 29 |
{[][<]NC(=O)O?*[>][]} | البولي يوريثين | 1 |
{[][<]C=C?*[>][]} | بوليدين | 31 |
{[][<]NC(=O)N?*[>][]} | البوليوريا | 6 |
هذه حالات بسيطة، ولكن لا توجد قيود على عدد وحدات التكرار ومجموعات النهاية في الاستعلام والهدف، مما يزيد من تعقيد البحث بشكل كبير. تتعامل الخوارزمية مع كل هذه الحالات.
https://doi.org/10.5281/zenodo.10702689
تم إصدار مجموعة البيانات بموجب CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) في Zenodo (https://doi.org/10.5281/zenodo.10702689).