https://pubs.acs.org/doi/10.1021/acs.jcim.3c00978
La recherche moléculaire est importante en chimie, en biologie et en informatique pour identifier les structures moléculaires au sein de grands ensembles de données, améliorer la découverte et l'innovation des connaissances et rendre les données chimiques ÉQUITABLES (trouvables, accessibles, interopérables et réutilisables). Les algorithmes de recherche de polymères sont nettement moins développés que ceux de petites molécules, car la recherche de polymères repose sur une recherche par nom de polymère, ce qui peut s'avérer difficile car la dénomination des polymères est trop large (c'est-à-dire, polyéthylène), compliquée pour les structures chimiques complexes et ne correspond souvent pas. aux conventions officielles de l'IUPAC. La recherche de structure chimique dans les polymères est limitée aux sous-structures, telles que les monomères, sans connaissance de la connectivité ou de la topologie. Ce travail introduit un nouveau langage de requête et un algorithme de recherche par parcours graphique pour les polymères qui fournissent la première méthode de recherche capable de capturer pleinement toutes les structures chimiques présentes dans les polymères. Le langage de requête BigSMARTS, une extension du langage SMARTS pour petites molécules, permet aux utilisateurs d'écrire des requêtes qui localisent les recherches de monomères et de groupes fonctionnels dans différentes parties du polymère, comme le bloc central d'un tribloc, la chaîne latérale d'un greffon et l'épine dorsale d'une unité de répétition. L'algorithme de recherche de sous-structure est basé sur le parcours de représentations graphiques des fonctions génératrices des graphiques stochastiques des polymères. Sur le plan opérationnel, l'algorithme identifie d'abord les cycles représentant les monomères, puis les groupes terminaux et effectue enfin une recherche en profondeur pour faire correspondre des sous-graphes entiers. Pour valider l'algorithme, des centaines de requêtes ont été recherchées sur des centaines de chimies et topologies cibles issues de la littérature, avec environ 440 000 paires requête-cible. Cet outil fournit un algorithme détaillé qui peut être implémenté dans les moteurs de recherche pour fournir des résultats de recherche correspondant parfaitement à la connectivité des monomères et à la topologie du polymère.
Tableau 1. Requêtes avec une restriction croissante sur l'ensemble cible correspondant.
BigSMARTS | Signification | # Clics BigSMILES |
---|---|---|
Chef de la conformité | éthanol SMARTS qui recherche un BigSMILES entier | 207 |
{[]COC[]} | éthanol SMARTS qui localise les hits sur les unités de répétition | 198 |
{[][<]CCO[>][]} | Requête PEG avec des groupes d'extrémité génériques qui localisent les hits sur les backbones des unités de répétition | 68 |
{[][<][CH2][CH2]O[>][]} | empêche les correspondances avec des groupes de pendentifs non spécifiés dans la requête | 57 |
{[][<][CH2][CH2]O[>],!*[]} | empêche les correspondances avec des unités de répétition supplémentaires non spécifiées dans la requête | 45 |
{[][<][CH2][CH2]O[>],!*;!*[]} | empêche les correspondances avec des unités de répétition supplémentaires et des groupes de fin non spécifiés dans la requête | 1 |
Tableau 2. Mutations unitaires répétées qui n’affectent pas les cibles correspondantes.
BigSMARTS | Changement | # Clics BigSMILES |
---|---|---|
{[][<]CCO[>][]} | Recherche de base PEG | 68 |
{[][>]CCO[<][]} | changement dans les descripteurs de liaison | 68 |
{[][<]COC[>][]} | décalage de trame | 68 |
{[][<]OCC[>][]} | inversion | 68 |
{[][<]C[<2],[>2]CO[>][]} | diviser | 68 |
{[][<]CCO[>],[<]CCO[>][]} | reproduction | 68 |
Tableau 3. Appariements requête-cible de copolymère bloc.
BigSMARTS | Changement | # Clics BigSMILES |
---|---|---|
{[][>]CC(c1ccccc1)[<][>]}?*{[>][<]CC(C(=O)O)[>][]} | sous-structure en polystyrène -b -polyacrylate avec lieur générique | 11 |
{[][$]CC(c1ccccc1)[$][$]}{[$][$]CC(C(=O)O)[$][]} | pas d'éditeur de liens générique | 7 |
{[][$]CC(C(=O)O)[$][$]}{[$][$]CC(c1ccccc1)[$][]} | retourner les blocs | 7 |
{[][<]CC(c1ccccc1)[>][<]}{[>][<]CC(C(=O)O)[>][]} | unités de répétition tête-bêche uniquement | 7 |
{[][<]CC(c1ccccc1)[>],[<]CC(c1ccccc1)[>2],[<2]CC(C(=O)O)[>2][]} | un seul objet stochastique, mais code toujours un dibloc ! | 7 |
{[][<]CC(c1ccccc1)[>];[<]CC(c1ccccc1){[>][<]CC(C(=O)O)[>][]}[]} | représentation du groupe final implicite/explicite | 7 |
Tableau 4. Appariements requête-cible du réseau polymère.
BigSMARTS | Changement | # Clics BigSMILES |
---|---|---|
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | Réseau polymère A2 + B3 | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]CCOCCO[>][<]}C(=O)C(C)(C)CCCC[<] ,[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | unité de répétition imbriquée dupliquée | 2 |
{[][<]CCCCC(C)(C)C(=O)O{[>][<]C[<3],[>3]CO[>][<]}C(=O)C (C)(C)CCCC[<],[>]n1cc([<2])nn1,[>2]COCC(COC[>2])(COC[>2])C[]} | fractionnement d'unités de répétition imbriquées | 2 |
{[][>]CCCCC(C)(C)C(=O)O{[>][<]CCO[>][<]}C(=O)C(C)(C)CCCC[>] ,[<]n1cc([<5])nn1,[>5]COCC(COC[>5])(COC[>5])C[]} | changement dans les descripteurs de liaison | 2 |
Tableau 5. Requêtes de graphiques topologiques.
BigSMARTS | Signification | # Clics BigSMILES |
---|---|---|
{[][]} | objet stochastique générique, correspond à tous les polymères | 489 |
{[][]} !{[][]} | un seul objet stochastique, ne correspond pas aux diblocs, triblocs ou étoiles | 382 |
{[][]}?*{[][]} | sous-structure diblock, peut correspondre aux triblocs et aux tétrablocs | 107 |
{[][]}?*{[][]} !{[][]} | sous-structure diblock sans autres blocs | 78 |
{[][]}?*{[][]}?*{[][]} | sous-structure tribloc, peut correspondre aux tétrablocs et aux hexablocs | 15 |
{[][]}?*{[][]}?*{[][]}!{[][]} | sous-structure tribloc sans autres blocs | 2 |
{[][<]?*{[>][<]?*[>][<]}?*[>][]} | topologie segmentée (objet imbriqué le long du backbone) | 10 |
{[][<]?*(?*{[>][<]?*[>][]})?*[>][]} | topologie de greffe (objet imbriqué sur la sidechain) | 11 |
{[][]}?*(?*{[][]})?*{[][]} | Structure polymère étoile à 3 bras | 21 |
Tableau 6. Groupes fonctionnels le long des requêtes du backbone.
BigSMARTS | Cours de chimie | # Clics BigSMILES |
---|---|---|
{[][<]C(=O)O?*[>][]} | polyester | 75 |
{[][<]OC(=O)O?*[>][]} | polycarbonate | 29 |
{[][<]NC(=O)O?*[>][]} | polyuréthane | 1 |
{[][<]C=C?*[>][]} | polydiène | 31 |
{[][<]NC(=O)N?*[>][]} | polyurée | 6 |
Ce sont des cas simples, mais il n'y a aucune restriction sur le nombre d'unités de répétition et de groupes de fin dans la requête et la cible, ce qui augmente considérablement la complexité de la recherche. L'algorithme gère tous ces cas.
https://doi.org/10.5281/zenodo.10702689
L'ensemble de données est publié sous CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) dans Zenodo (https://doi.org/10.5281/zenodo.10702689).