https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
Молекулярный поиск важен в химии, биологии и информатике для идентификации молекулярных структур в больших наборах данных, улучшения открытия знаний и инноваций, а также обеспечения СПРАВЕДЛИВОСТИ химических данных (обнаруживаемых, доступных, совместимых, многоразовых). Алгоритмы поиска полимеров значительно менее развиты, чем алгоритмы поиска малых молекул, поскольку поиск полимеров основан на поиске по названию полимера, что может быть затруднительным, поскольку наименование полимера слишком широкое (например, полиэтилен), сложное для сложных химических структур и часто не соответствует официальным конвенциям ИЮПАК. Поиск химической структуры полимеров ограничивается подструктурами, такими как мономеры, без учета связности или топологии. В этой работе представлен новый язык запросов и алгоритм поиска по графам для полимеров, который обеспечивает первый метод поиска, способный полностью охватить все химические структуры, присутствующие в полимерах. Язык запросов BigSMARTS, расширение языка SMARTS для малых молекул, позволяет пользователям писать запросы, которые локализуют поиск мономеров и функциональных групп в различных частях полимера, таких как средний блок триблока, боковая цепь трансплантата и основа повторяющейся единицы. Алгоритм поиска подструктур основан на обходе графовых представлений производящих функций стохастических графов полимеров. В оперативном плане алгоритм сначала идентифицирует циклы, представляющие мономеры, а затем концевые группы, и, наконец, выполняет поиск в глубину для сопоставления целых подграфов. Для проверки алгоритма были проверены сотни запросов по сотням целевых химических характеристик и топологий из литературы, с примерно 440 000 парами запрос-цель. Этот инструмент предоставляет подробный алгоритм, который можно реализовать в поисковых системах для предоставления результатов поиска с полным соответствием связности мономера и топологии полимера.
Таблица 1. Запросы с возрастающим ограничением на сопоставленный целевой ансамбль.
БигСМАРТС | Значение | # Хиты BigSMILES |
---|---|---|
коммерческий директор | этанол SMARTS, который осуществляет поиск по всему BigSMILES | 207 |
{[]CCO[]} | этанол SMARTS, который локализует попадания в повторяющиеся единицы | 198 |
{[][<]CCO[>][]} | Запрос PEG с конечными группами с подстановочными знаками, который локализует попадания в магистральные цепи повторяющихся единиц. | 68 |
{[][<][CH2][CH2]O[>][]} | предотвращает совпадения с подвесными группами, не указанными в запросе | 57 |
{[][<][CH2][CH2]O[>],!*[]} | предотвращает совпадения с дополнительными единицами повторения, не указанными в запросе | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | предотвращает совпадения с дополнительными единицами повторения и конечными группами, не указанными в запросе | 1 |
Таблица 2. Повторяющиеся мутации единиц, не влияющие на совпадающие цели.
БигСМАРТС | Изменять | # Хиты BigSMILES |
---|---|---|
{[][<]CCO[>][]} | Поиск основной сети PEG | 68 |
{[][>]CCO[<][]} | изменение дескрипторов связей | 68 |
{[][<]COC[>][]} | сдвиг кадра | 68 |
{[][<]OCC[>][]} | инверсия | 68 |
{[][<]C[<2],[>2]CO[>][]} | расколоть | 68 |
{[][<]CCO[>],[<]CCO[>][]} | дублирование | 68 |
Таблица 3. Пары запроса и цели блок-сополимера.
БигСМАРТС | Изменять | # Хиты BigSMILES |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | Блочная структура полистирол- b -полиакрилата с подстановочным линкером | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | нет компоновщика с подстановочными знаками | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1cccc1)[$][]} | переворачивать блоки | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | только повторяющиеся единицы «от головы к хвосту» | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | один стохастический объект, но все равно кодирует диблок! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | неявное/явное представление конечной группы | 7 |
Таблица 4. Пары запроса и цели полимерной сети.
БигСМАРТС | Изменять | # Хиты BigSMILES |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | Полимерная сетка А2+В3 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | дублированный вложенный повторяющийся блок | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | разделение вложенной повторяющейся единицы | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | изменение дескрипторов связей | 2 |
Таблица 5. Запросы топологического графа.
БигСМАРТС | Значение | # Хиты BigSMILES |
---|---|---|
{[][]} | стохастический объект с подстановочными знаками, соответствует всем полимерам | 489 |
{[][]}!{[][]} | только один стохастический объект, не соответствующий диблокам, триблокам или звездам | 382 |
{[][]}?*{[][]} | двухблочная подструктура, может соответствовать триблокам и тетраблокам | 107 |
{[][]}?*{[][]}!{[][]} | двухблочная подструктура без других блоков | 78 |
{[][]}?*{[][]}?*{[][]} | трехблочная подструктура, может сочетаться с тетраблоками и гексаблоками | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | трехблочное основание без других блоков | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | сегментированная топология (вложенный объект вдоль магистрали) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | топология трансплантации (вложенный объект в боковой цепи) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | Трехлучевое звездообразное полимерное основание | 21 |
Таблица 6. Функциональные группы по магистральным запросам.
БигСМАРТС | Класс химии | # Хиты BigSMILES |
---|---|---|
{[][<]C(=O)O?*[>][]} | полиэстер | 75 |
{[][<]OC(=O)O?*[>][]} | поликарбонат | 29 |
{[][<]NC(=O)O?*[>][]} | полиуретан | 1 |
{[][<]C=C?*[>][]} | полидиен | 31 |
{[][<]NC(=O)N?*[>][]} | полимочевина | 6 |
Это простые случаи, но ограничений на количество повторяющихся единиц и конечных групп в запросе и цели нет, что значительно усложняет поиск. Алгоритм обрабатывает все эти случаи.
https://doi.org/10.5281/zenodo.10702689
Набор данных выпущен под лицензией CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) в Zenodo (https://doi.org/10.5281/zenodo.10702689).