https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
分子搜索在化学、生物学和信息学中非常重要,可用于识别大数据集中的分子结构,改进知识发现和创新,并使化学数据公平(可查找、可访问、可互操作、可重用)。聚合物的搜索算法比小分子的搜索算法明显落后,因为聚合物搜索依赖于聚合物名称搜索,这可能具有挑战性,因为聚合物命名过于宽泛(即聚乙烯),对于复杂的化学结构来说很复杂,并且通常不对应正式 IUPAC 公约。聚合物中的化学结构搜索仅限于单体等子结构,而不了解连通性或拓扑结构。这项工作引入了一种新颖的聚合物查询语言和图遍历搜索算法,提供了第一种能够完全捕获聚合物中存在的所有化学结构的搜索方法。 BigSMARTS 查询语言是小分子 SMARTS 语言的扩展,允许用户编写查询,将单体和官能团搜索定位到聚合物的不同部分,例如三嵌段的中间嵌段、接枝物的侧链和重复单元的骨干。子结构搜索算法基于聚合物随机图生成函数的图表示的遍历。在操作上,该算法首先识别代表单体的循环,然后识别端基,最后执行深度优先搜索以匹配整个子图。为了验证算法,针对文献中的数百种目标化学物质和拓扑结构搜索了数百个查询,大约有 440,000 个查询-目标对。该工具提供了可以在搜索引擎中实现的详细算法,以提供单体连接性和聚合物拓扑完全匹配的搜索结果。
表 1.对匹配的目标集合限制不断增加的查询。
大智慧 | 意义 | # BigSMILES 热门歌曲 |
---|---|---|
中科协 | 搜索整个 BigSMILES 的乙醇 SMARTS | 207 |
{[]CCO[]} | 乙醇 SMARTS 将命中定位于重复单元 | 198 |
{[][<]CCO[>][]} | 带有通配符末端基团的 PEG 查询可将命中定位到重复单元主链 | 68 |
{[][<][CH2][CH2]O[>][]} | 防止与查询中未指定的挂起组匹配 | 57 |
{[][<][CH2][CH2]O[>],!*[]} | 防止匹配查询中未指定的额外重复单元 | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | 防止匹配查询中未指定的额外重复单元和末端基团 | 1 |
表 2.不影响匹配目标的重复单元突变。
大智慧 | 改变 | # BigSMILES 热门歌曲 |
---|---|---|
{[][<]CCO[>][]} | PEG骨干搜索 | 68 |
{[][>]CCO[<][]} | 绑定描述符的变化 | 68 |
{[][<]COC[>][]} | 移码 | 68 |
{[][<]OCC[>][]} | 反转 | 68 |
{[][<]C[<2],[>2]CO[>][]} | 分裂 | 68 |
{[][<]CCO[>],[<]CCO[>][]} | 复制 | 68 |
表 3.嵌段共聚物查询-目标配对。
大智慧 | 改变 | # BigSMILES 热门歌曲 |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | 带有通配符连接子的聚苯乙烯-b-聚丙烯酸酯嵌段子结构 | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | 没有通配符链接器 | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | 翻转方块 | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | 仅头尾重复单元 | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | 单个随机对象,但仍然编码二块! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | 隐式/显式端基表示 | 7 |
表 4.聚合物网络查询-目标配对。
大智慧 | 改变 | # BigSMILES 热门歌曲 |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | A2+B3聚合物网络 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 重复的嵌套重复单元 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 嵌套重复单元分割 | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | 绑定描述符的变化 | 2 |
表 5.拓扑图查询。
大智慧 | 意义 | # BigSMILES 热门歌曲 |
---|---|---|
{[][]} | 通配符随机对象,匹配所有聚合物 | 第489章 |
{[][]}!{[][]} | 只有一个随机对象,与二嵌段、三嵌段或星形不匹配 | 第382章 |
{[][]}?*{[][]} | 二嵌段子结构,可匹配三嵌段和四嵌段 | 107 |
{[][]}?*{[][]}!{[][]} | 没有其他块的二块子结构 | 78 |
{[][]}?*{[][]}?*{[][]} | 三嵌段子结构,可匹配四嵌段和六嵌段 | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | 没有其他块的三块子结构 | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | 分段拓扑(沿着主干的嵌套对象) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | 移植拓扑(侧链上的嵌套对象) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | 三臂星形聚合物子结构 | 21 |
表 6.主干查询的功能组。
大智慧 | 化学课 | # BigSMILES 热门歌曲 |
---|---|---|
{[][<]C(=O)O?*[>][]} | 聚酯纤维 | 75 |
{[][<]OC(=O)O?*[>][]} | 聚碳酸酯 | 29 |
{[][<]NC(=O)O?*[>][]} | 聚氨酯 | 1 |
{[][<]C=C?*[>][]} | 聚二烯 | 31 |
{[][<]NC(=O)N?*[>][]} | 聚脲 | 6 |
这些都是简单的情况,但查询和目标中重复单元和末端基团的数量没有限制,大大增加了搜索的复杂性。该算法可以处理所有这些情况。
https://doi.org/10.5281/zenodo.10702689
该数据集在 Zenodo (https://doi.org/10.5281/zenodo.10702689) 中根据 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 发布。