https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
分子搜尋在化學、生物學和資訊學中非常重要,可用於識別大數據集中的分子結構,改進知識發現和創新,並使化學數據公平(可找到、可存取、可互通、可重複使用)。聚合物的搜尋演算法明顯不如小分子的搜尋演算法成熟,因為聚合物搜索依賴聚合物名稱搜索,這可能具有挑戰性,因為聚合物命名過於寬泛(即聚乙烯),對於複雜的化學結構來說很複雜,並且通常不對應正式 IUPAC 公約。聚合物中的化學結構搜尋僅限於單體等子結構,而不了解連通性或拓樸結構。這項工作引入了一種新穎的聚合物查詢語言和圖遍歷搜尋演算法,提供了第一種能夠完全捕獲聚合物中存在的所有化學結構的搜尋方法。 BigSMARTS 查詢語言是小分子 SMARTS 語言的擴展,允許使用者編寫查詢,將單體和官能基搜尋定位到聚合物的不同部分,例如三嵌段的中間嵌段、接枝物的側鏈和重複單元的骨幹。子結構搜尋演算法是基於聚合物隨機圖產生函數的圖表示的遍歷。在操作上,演算法首先識別代表單體的循環,然後識別端基,最後執行深度優先搜尋以匹配整個子圖。為了驗證演算法,針對文獻中的數百種目標化學物質和拓撲結構搜尋了數百個查詢,大約有 440,000 個查詢-目標對。該工具提供了可以在搜尋引擎中實現的詳細演算法,以提供單體連接性和聚合物拓撲完全匹配的搜尋結果。
表 1.對匹配的目標集合限制不斷增加的查詢。
大智慧 | 意義 | # BigSMILES 熱門歌曲 |
---|---|---|
中科協 | 搜尋整個 BigSMILES 的乙醇 SMARTS | 207 |
{[]CCO[]} | 乙醇 SMARTS 將命中定位於重複單元 | 198 |
{[][<]CCO[>][]} | 帶有通配符末端基團的 PEG 查詢可將命中定位到重複單元主鏈 | 68 |
{[][<][CH2][CH2]O[>][]} | 防止與查詢中未指定的掛起群組相符 | 57 |
{[][<][CH2][CH2]O[>],!*[]} | 防止在匹配查詢中未指定的額外重複單元 | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | 防止在匹配查詢中未指定的額外重複單元和末端基團 | 1 |
表 2.不影響配對目標的重複單元突變。
大智慧 | 改變 | # BigSMILES 熱門歌曲 |
---|---|---|
{[][<]CCO[>][]} | PEG骨幹搜尋 | 68 |
{[][>]CCO[<][]} | 綁定描述符的變化 | 68 |
{[][<]COC[>][]} | 移碼 | 68 |
{[][<]OCC[>][]} | 反轉 | 68 |
{[][<]C[<2],[>2]CO[>][]} | 分裂 | 68 |
{[][<]CCO[>],[<]CCO[>][]} | 複製 | 68 |
表 3.嵌段共聚物查詢-目標配對。
大智慧 | 改變 | # BigSMILES 熱門歌曲 |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | 帶有通配符連接子的聚苯乙烯-b-聚丙烯酸酯嵌段子結構 | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | 沒有通配符連結器 | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | 翻轉方塊 | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | 僅頭尾重複單元 | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | 單一隨機對象,但仍編碼二塊! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | 隱式/顯式端基表示 | 7 |
表 4.聚合物網絡查詢-目標配對。
大智慧 | 改變 | # BigSMILES 熱門歌曲 |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | A2+B3聚合物網絡 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 重複的嵌套重複單元 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 嵌套重複單元分割 | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | 綁定描述符的變化 | 2 |
表 5.拓樸圖查詢。
大智慧 | 意義 | # BigSMILES 熱門歌曲 |
---|---|---|
{[][]} | 通配符隨機對象,匹配所有聚合物 | 第489章 |
{[][]}! | 只有一個隨機對象,與二嵌段、三嵌段或星形不匹配 | 第382章 |
{[][]}? | 二嵌段子結構,可匹配三嵌段和四嵌段 | 107 |
{[][]}? | 沒有其他區塊的二塊子結構 | 78 |
{[][]}? | 三嵌段子結構,可搭配四嵌段和六嵌段 | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | 沒有其他塊的三塊子結構 | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | 分段拓撲(沿著主幹的嵌套物件) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | 移植拓撲(側鏈上的巢狀物件) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | 三臂星形聚合物子結構 | 21 |
表 6.主幹查詢的功能組。
大智慧 | 化學課 | # BigSMILES 熱門歌曲 |
---|---|---|
{[][<]C(=O)O?*[>][]} | 聚酯纖維 | 75 |
{[][<]OC(=O)O?*[>][]} | 聚碳酸酯 | 29 |
{[][<]NC(=O)O?*[>][]} | 聚氨酯 | 1 |
{[][<]C=C?*[>][]} | 聚二烯 | 31 |
{[][<]NC(=O)N?*[>][]} | 聚脲 | 6 |
這些都是簡單的情況,但查詢和目標中重複單元和末端基團的數量沒有限制,大大增加了搜尋的複雜性。該演算法可以處理所有這些情況。
https://doi.org/10.5281/zenodo.10702689
此資料集在 Zenodo (https://doi.org/10.5281/zenodo.10702689) 中根據 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 發布。