https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
分子検索は、化学、生物学、情報学において、大規模なデータセット内の分子構造を特定し、知識の発見と革新を改善し、化学データを公正(検索可能、アクセス可能、相互運用可能、再利用可能)にするために重要です。ポリマーの検索アルゴリズムは、低分子の検索アルゴリズムに比べて開発が著しく遅れています。これは、ポリマーの検索がポリマー名による検索に依存しているためです。これは、ポリマーの名前が広すぎるため (ポリエチレンなど)、複雑な化学構造が複雑で、一致しないことが多いため、困難な場合があります。公式の IUPAC 大会に準拠します。ポリマーの化学構造検索は、接続性やトポロジーを意識せず、モノマーなどの部分構造に限定されます。この研究では、ポリマーに存在するすべての化学構造を完全に捕捉できる最初の検索方法を提供する、ポリマー用の新しいクエリ言語とグラフ横断検索アルゴリズムを導入しています。小分子 SMARTS 言語の拡張である BigSMARTS クエリ言語を使用すると、モノマーと官能基の検索をポリマーのさまざまな部分 (トリブロックの中間ブロック、グラフトの側鎖など) に局所化するクエリを作成できます。リピートユニットのバックボーン。部分構造検索アルゴリズムは、ポリマーの確率グラフの生成関数のグラフ表現の走査に基づいています。操作上、アルゴリズムは最初にモノマーを表すサイクルを識別し、次に末端グループを識別し、最後に深さ優先検索を実行してサブグラフ全体を照合します。アルゴリズムを検証するために、約 440,000 のクエリとターゲットのペアを使用して、文献からの数百のターゲット化学およびトポロジに対して数百のクエリが検索されました。このツールは、検索エンジンに実装できる詳細なアルゴリズムを提供し、モノマーの接続性とポリマーのトポロジーが完全に一致する検索結果を提供します。
表 1.一致するターゲット アンサンブルに対する制限が増加したクエリ。
ビッグスマート | 意味 | # BigSMILES のヒット曲 |
---|---|---|
CCO | BigSMILES全体を検索するエタノールSMARTS | 207 |
{[]CCO[]} | ヒットを反復単位に局在化するエタノール SMARTS | 198 |
{[][<]CCO[>][]} | ヒットをリピート単位バックボーンに局在化するワイルドカード末端グループを使用した PEG クエリ | 68 |
{[][<][CH2][CH2]O[>][]} | クエリで指定されていないペンダント グループとの一致を防止します | 57 |
{[][<][CH2][CH2]O[>],!*[]} | クエリで指定されていない余分な繰り返し単位との一致を防止します | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | クエリで指定されていない余分な繰り返し単位や末端グループとの一致を防止します | 1 |
表 2.一致したターゲットに影響を与えない反復単位の突然変異。
ビッグスマート | 変化 | # BigSMILES のヒット曲 |
---|---|---|
{[][<]CCO[>][]} | PEGバックボーン検索 | 68 |
{[][>]CCO[<][]} | 結合記述子の変更 | 68 |
{[][<]COC[>][]} | フレームシフト | 68 |
{[][<]OCC[>][]} | 反転 | 68 |
{[][<]C[<2],[>2]CO[>][]} | スプリット | 68 |
{[][<]CCO[>]、[<]CCO[>][]} | 複製 | 68 |
表 3.ブロックコポリマーのクエリとターゲットの組み合わせ。
ビッグスマート | 変化 | # BigSMILES のヒット曲 |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | ワイルドカード リンカーを含むポリスチレン-b-ポリアクリレート ブロック部分構造 | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | ワイルドカードリンカーなし | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | ブロックを裏返す | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | 頭から尾までの繰り返し単位のみ | 7 |
{[][<]CC(c1cccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | 単一の確率的オブジェクトですが、それでもディブロックをエンコードします。 | 7 |
{[][<]CC(c1cccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | 暗黙的/明示的な末端グループ表現 | 7 |
表 4.ポリマー ネットワークのクエリとターゲットの組み合わせ。
ビッグスマート | 変化 | # BigSMILES のヒット曲 |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | A2 + B3 ポリマーネットワーク | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 複製されたネストされたリピートユニット | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | ネストされた繰り返し単位の分割 | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | 結合記述子の変更 | 2 |
表 5.トポロジカル グラフ クエリ。
ビッグスマート | 意味 | # BigSMILES のヒット曲 |
---|---|---|
{[][]} | ワイルドカード確率オブジェクト、すべてのポリマーに一致 | 489 |
{[][]}!{[][]} | 確率的オブジェクトが 1 つだけあり、ディブロック、トライブロック、スターには一致しません | 382 |
{[][]}?*{[][]} | ジブロック部分構造、トリブロックおよびテトラブロックに一致可能 | 107 |
{[][]}?*{[][]}!{[][]} | 他のブロックを持たないジブロック部分構造 | 78 |
{[][]}?*{[][]}?*{[][]} | トリブロックのサブ構造、テトラブロックおよびヘキサブロックに一致可能 | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | 他のブロックを持たないトリブロック下部構造 | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | セグメント化されたトポロジ (バックボーンに沿ったネストされたオブジェクト) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | グラフト トポロジ (サイドチェーン上のネストされたオブジェクト) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | 3アームスターポリマー基礎構造 | 21 |
表 6.バックボーン クエリに沿った機能グループ。
ビッグスマート | 化学教室 | # BigSMILES のヒット曲 |
---|---|---|
{[][<]C(=O)O?*[>][]} | ポリエステル | 75 |
{[][<]OC(=O)O?*[>][]} | ポリカーボネート | 29 |
{[][<]NC(=O)O?*[>][]} | ポリウレタン | 1 |
{[][<]C=C?*[>][]} | ポリジエン | 31 |
{[][<]NC(=O)N?*[>][]} | ポリ尿素 | 6 |
これらは単純なケースですが、クエリとターゲット内の繰り返し単位と末端グループの数に制限がないため、検索の複雑さが大幅に増加します。アルゴリズムはこれらすべてのケースを処理します。
https://doi.org/10.5281/zenodo.10702689
データセットは、CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) に基づいて Zenodo (https://doi.org/10.5281/zenodo.10702689) でリリースされています。