https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
분자 검색은 화학, 생물학, 정보학에서 대규모 데이터 세트 내의 분자 구조를 식별하고 지식 발견 및 혁신을 개선하며 화학 데이터를 FAIR(검색 가능, 액세스 가능, 상호 운용 가능, 재사용 가능)로 만드는 데 중요합니다. 폴리머 검색은 폴리머 이름 검색에 의존하기 때문에 폴리머 검색 알고리즘은 저분자 검색 알고리즘보다 훨씬 덜 개발되었습니다. 이는 폴리머 이름 지정이 지나치게 광범위하고(예: 폴리에틸렌) 복잡한 화학 구조에 대해 복잡하며 종종 일치하지 않기 때문에 어려울 수 있습니다. 공식 IUPAC 협약에 따라. 고분자의 화학 구조 검색은 연결성이나 토폴로지에 대한 인식 없이 단량체와 같은 하위 구조로 제한됩니다. 이 연구에서는 고분자에 존재하는 모든 화학 구조를 완전히 포착할 수 있는 최초의 검색 방법을 제공하는 고분자에 대한 새로운 쿼리 언어와 그래프 순회 검색 알고리즘을 소개합니다. 소분자 SMARTS 언어의 확장인 BigSMARTS 쿼리 언어를 사용하면 사용자는 삼블록의 중간 블록, 이식편의 측쇄, 반복 단위의 백본. 하위 구조 검색 알고리즘은 고분자의 확률 그래프에 대한 생성 함수의 그래프 표현 순회를 기반으로 합니다. 작동상 알고리즘은 먼저 단량체를 나타내는 사이클을 식별한 다음 최종 그룹을 식별하고 마지막으로 전체 하위 그래프를 일치시키기 위해 깊이 우선 검색을 수행합니다. 알고리즘을 검증하기 위해 약 440,000개의 쿼리-대상 쌍을 사용하여 문헌의 수백 가지 대상 화학 및 토폴로지에 대해 수백 개의 쿼리를 검색했습니다. 이 도구는 검색 엔진에서 구현하여 모노머 연결성과 폴리머 토폴로지가 완전히 일치하는 검색 결과를 제공할 수 있는 상세한 알고리즘을 제공합니다.
표 1. 일치하는 대상 앙상블에 대한 제한이 증가하는 쿼리.
빅스마트 | 의미 | # 빅스마일즈 히트곡 |
---|---|---|
CCO | BigSMILES 전체를 검색하는 에탄올 SMARTS | 207 |
{[]CCO[]} | 반복 단위에 히트를 국한시키는 에탄올 SMARTS | 198 |
{[][<]CCO[>][]} | 반복 단위 백본에 대한 히트를 지역화하는 와일드카드 끝 그룹이 있는 PEG 쿼리 | 68 |
{[][<][CH2][CH2]O[>][]} | 쿼리에 지정되지 않은 펜던트 그룹과의 일치를 방지합니다. | 57 |
{[][<][CH2][CH2]O[>],!*[]} | 쿼리에 지정되지 않은 추가 반복 단위와의 일치를 방지합니다. | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | 쿼리에 지정되지 않은 추가 반복 단위 및 끝 그룹과의 일치를 방지합니다. | 1 |
표 2. 일치하는 표적에 영향을 주지 않는 반복 단위 돌연변이.
빅스마트 | 변화 | # 빅스마일즈 히트곡 |
---|---|---|
{[][<]CCO[>][]} | PEG 백본 검색 | 68 |
{[][>]CCO[<][]} | 결합 설명자의 변경 | 68 |
{[][<]COC[>][]} | 프레임 이동 | 68 |
{[][<]OCC[>][]} | 반전 | 68 |
{[][<]C[<2],[>2]CO[>][]} | 나뉘다 | 68 |
{[][<]CCO[>],[<]CCO[>][]} | 복사 | 68 |
표 3. 블록 공중합체 쿼리-대상 쌍.
빅스마트 | 변화 | # 빅스마일즈 히트곡 |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | 와일드카드 링커가 있는 폴리스티렌 -b- 폴리아크릴레이트 블록 하부 구조 | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | 와일드카드 링커 없음 | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | 블록을 뒤집다 | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | 머리부터 꼬리까지 반복 단위만 해당 | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | 단일 확률론적 개체이지만 여전히 이중 블록을 인코딩합니다! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | 암시적/명시적 최종 그룹 표현 | 7 |
표 4. 폴리머 네트워크 쿼리-대상 쌍.
빅스마트 | 변화 | # 빅스마일즈 히트곡 |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | A2 + B3 폴리머 네트워크 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 중복된 중첩 반복 단위 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | 중첩된 반복 단위 분할 | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | 결합 설명자의 변경 | 2 |
표 5. 토폴로지 그래프 쿼리.
빅스마트 | 의미 | # 빅스마일즈 히트곡 |
---|---|---|
{[][]} | 와일드카드 확률론적 객체, 모든 폴리머와 일치 | 489 |
{[][]}!{[][]} | 단 하나의 확률론적 개체가 이중 블록, 삼중 블록 또는 별과 일치하지 않습니다. | 382 |
{[][]}?*{[][]} | 이중 블록 하위 구조, 삼중 블록 및 사중 블록과 일치 가능 | 107 |
{[][]}?*{[][]}!{[][]} | 다른 블록이 없는 이중 블록 하위 구조 | 78 |
{[][]}?*{[][]}?*{[][]} | 삼중 블록 하위 구조, 사중 블록 및 육각 블록과 일치 가능 | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | 다른 블록이 없는 삼중 블록 하부 구조 | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | 분할된 토폴로지(백본을 따라 중첩된 개체) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | 그래프트 토폴로지(사이드체인에 중첩된 객체) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | 3-암 스타 폴리머 하부 구조 | 21 |
표 6. 백본 쿼리에 따른 기능 그룹
빅스마트 | 화학 수업 | # 빅스마일즈 히트곡 |
---|---|---|
{[][<]C(=O)O?*[>][]} | 폴리에스테르 | 75 |
{[][<]OC(=O)O?*[>][]} | 폴리카보네이트 | 29 |
{[][<]NC(=O)O?*[>][]} | 폴리우레탄 | 1 |
{[][<]C=C?*[>][]} | 폴리디엔 | 31 |
{[][<]NC(=O)N?*[>][]} | 폴리우레아 | 6 |
이는 간단한 경우이지만 쿼리와 대상의 반복 단위와 말단 그룹 수에 제한이 없어 검색의 복잡성이 크게 증가합니다. 알고리즘은 이러한 모든 경우를 처리합니다.
https://doi.org/10.5281/zenodo.10702689
데이터 세트는 Zenodo(https://doi.org/10.5281/zenodo.10702689)에서 CC BY 4.0(https://creativecommons.org/licenses/by/4.0/)에 따라 공개됩니다.