https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
La búsqueda molecular es importante en química, biología e informática para identificar estructuras moleculares dentro de grandes conjuntos de datos, mejorar el descubrimiento de conocimientos y la innovación, y hacer que los datos químicos sean JUSTOS (encontrables, accesibles, interoperables y reutilizables). Los algoritmos de búsqueda de polímeros están significativamente menos desarrollados que los de moléculas pequeñas porque la búsqueda de polímeros se basa en la búsqueda por nombre de polímero, lo que puede ser un desafío porque la denominación de polímeros es demasiado amplia (es decir, polietileno), complicada para estructuras químicas complejas y, a menudo, no corresponde. a las convenciones oficiales de la IUPAC. La búsqueda de estructuras químicas en polímeros se limita a subestructuras, como los monómeros, sin conocimiento de la conectividad o topología. Este trabajo presenta un lenguaje de consulta novedoso y un algoritmo de búsqueda transversal de gráficos para polímeros que proporciona el primer método de búsqueda capaz de capturar completamente todas las estructuras químicas presentes en los polímeros. El lenguaje de consulta BigSMARTS, una extensión del lenguaje SMARTS de moléculas pequeñas, permite a los usuarios escribir consultas que localizan búsquedas de monómeros y grupos funcionales en diferentes partes del polímero, como el bloque medio de un tribloque, la cadena lateral de un injerto y la columna vertebral de una unidad repetida. El algoritmo de búsqueda de subestructuras se basa en el recorrido de representaciones gráficas de las funciones generadoras de gráficas estocásticas de polímeros. Operacionalmente, el algoritmo primero identifica los ciclos que representan los monómeros y luego los grupos finales y finalmente realiza una búsqueda en profundidad para hacer coincidir subgrafos completos. Para validar el algoritmo, se buscaron cientos de consultas en cientos de químicas y topologías objetivo de la literatura, con aproximadamente 440 000 pares consulta-objetivo. Esta herramienta proporciona un algoritmo detallado que se puede implementar en motores de búsqueda para proporcionar resultados de búsqueda con una coincidencia completa de la conectividad del monómero y la topología del polímero.
Tabla 1. Consultas con restricción creciente en el conjunto objetivo coincidente.
grandesinteligentes | Significado | # Grandes SONRISAS Éxitos |
---|---|---|
director de operaciones | etanol SMARTS que busca un BigSMILES completo | 207 |
{[]CCO[]} | etanol SMARTS que localiza los impactos en las unidades repetidas | 198 |
{[][<]CCO[>][]} | Consulta PEG con grupos finales comodín que localiza los accesos a las redes troncales de la unidad repetida | 68 |
{[][<][CH2][CH2]O[>][]} | evita coincidencias con grupos colgantes no especificados en la consulta | 57 |
{[][<][CH2][CH2]O[>],!*[]} | evita coincidencias con unidades de repetición adicionales no especificadas en la consulta | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | evita coincidencias con unidades de repetición adicionales y grupos finales no especificados en la consulta | 1 |
Tabla 2. Mutaciones unitarias repetidas que no afectan a los objetivos coincidentes.
grandesinteligentes | Cambiar | # Grandes SONRISAS Éxitos |
---|---|---|
{[][<]CCO[>][]} | Búsqueda de red PEG | 68 |
{[][>]CCO[<][]} | cambio en los descriptores de vinculación | 68 |
{[][<]COC[>][]} | cambio de marco | 68 |
{[][<]OCC[>][]} | inversión | 68 |
{[][<]C[<2],[>2]CO[>][]} | dividir | 68 |
{[][<]CCO[>],[<]CCO[>][]} | duplicación | 68 |
Tabla 3. Emparejamientos de consulta-objetivo de copolímero de bloques.
grandesinteligentes | Cambiar | # Grandes SONRISAS Éxitos |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | subestructura de bloque de poliestireno- b -poliacrilato con conector comodín | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | sin enlazador comodín | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | voltear los bloques | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | unidades de repetición de cabeza a cola solamente | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | un solo objeto estocástico, ¡pero aún codifica un dibloque! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | representación implícita/explícita del grupo final | 7 |
Tabla 4. Emparejamientos de destino-consulta de red de polímeros.
grandesinteligentes | Cambiar | # Grandes SONRISAS Éxitos |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | Red polimérica A2 + B3 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | unidad de repetición anidada duplicada | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | división de unidad de repetición anidada | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | cambio en los descriptores de vinculación | 2 |
Tabla 5. Consultas de gráficos topológicos.
grandesinteligentes | Significado | # Grandes SONRISAS Éxitos |
---|---|---|
{[][]} | objeto estocástico comodín, coincide con todos los polímeros | 489 |
{[][]}!{[][]} | solo un objeto estocástico, no coincide con dibloques, tribloques o estrellas | 382 |
{[][]}?*{[][]} | Subestructura dibloque, puede combinarse con tribloques y tetrabloques. | 107 |
{[][]}?*{[][]}!{[][]} | subestructura dibloque sin otros bloques | 78 |
{[][]}?*{[][]}?*{[][]} | Subestructura tribloque, puede coincidir con tetrabloques y hexabloques. | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | subestructura tribloque sin otros bloques | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | topología segmentada (objeto anidado a lo largo de la red troncal) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | Topología de injerto (objeto anidado en la cadena lateral) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | Subestructura de polímero en forma de estrella de 3 brazos | 21 |
Tabla 6. Grupos funcionales a lo largo de las consultas troncales.
grandesinteligentes | clase de quimica | # Grandes SONRISAS Éxitos |
---|---|---|
{[][<]C(=O)O?*[>][]} | poliéster | 75 |
{[][<]OC(=O)O?*[>][]} | policarbonato | 29 |
{[][<]NC(=O)O?*[>][]} | poliuretano | 1 |
{[][<]C=C?*[>][]} | polidieno | 31 |
{[][<]NC(=O)N?*[>][]} | poliurea | 6 |
Estos son casos simples, pero no hay restricción en el número de unidades repetidas y grupos finales en la consulta y el destino, lo que aumenta considerablemente la complejidad de la búsqueda. El algoritmo maneja todos estos casos.
https://doi.org/10.5281/zenodo.10702689
El conjunto de datos se publica bajo CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) en Zenodo (https://doi.org/10.5281/zenodo.10702689).