Mise à jour : notre article a été accepté pour les Briefings in Bioinformatics !
Référentiel du document d'enquête « A Survey of Generative AI for de novo Drug Discovery : New Frontiers in Molecule and Protein Design ».
Xiangru Tang 1 *, Howard Dai 1 *, Elizabeth Knight 1 *, Yunyang Li 1 , Fang Wu 2 , Tianxiao Li 1 , Mark Gerstein 1
1. Université de Yale ; 2. Université de Stanford
(* : Contribution égale)
[**] désigne les sections d'annexe.
Section | Sous-section | Ensembles de données | Métrique | Modèles |
---|---|---|---|---|
Molécule | Génération indépendante de la cible | Ensembles de données | Métrique | Modèles |
Molécule | Génération ciblée | Ensembles de données | Métrique | Modèles |
Molécule | Génération de conformations** | Ensembles de données | Métrique | Modèles |
Protéine | Apprentissage de la représentation** | Ensembles de données | Modèles | |
Protéine | Prédiction des structures | Ensembles de données | Métrique | Modèles |
Protéine | Génération de séquence | Ensembles de données | Métrique | Modèles |
Protéine | Conception de la colonne vertébrale | Ensembles de données | Métrique | Modèles |
Anticorps | Apprentissage de la représentation** | Ensembles de données | Modèles | |
Anticorps | Prédiction de structure** | Ensembles de données | Métrique | Modèles |
Anticorps | Génération CDR** | Ensembles de données | Métrique | Modèles |
Peptide | Divers. Tâches** | Modèles |
@article{tang2024survey,
title={A survey of generative ai for de novo drug design: new frontiers in molecule and protein generation},
author={Tang, Xiangru and Dai, Howard and Knight, Elizabeth and Wu, Fang and Li, Yunyang and Li, Tianxiao and Gerstein, Mark},
journal={Briefings in Bioinformatics},
volume={25},
number={4},
year={2024},
publisher={Oxford Academic}
}
Un aperçu des sujets abordés dans notre article. Les sections surlignées en bleu se trouvent dans le texte principal, tandis que les sections en violet sont des sections étendues trouvées en annexe.
Structures et propriétés de chimie quantique de molécules de 134 kilos (QM9)
Raghunathan Ramakrishnan, Pavlo O. Dral, Matthias Rupp, O. Anatole von Lilienfeld
Données scientifiques (2014)
GEOM, conformations moléculaires annotées en énergie pour la prédiction des propriétés et la génération moléculaire (GEOM)
Simon Axelrod, Rafael Gómez-Bombarelli
Données scientifiques (2022)
Conception chimique automatique utilisant une représentation continue de molécules basée sur les données (CVAE)
Rafael Gómez-Bombarelli, Jennifer N. Wei, David Duvenaud, JoséMiguel Hernández-Lobato, BenjamínSánchez-Lengeling, Dennis Sheberla, Jorge Aguilera-Iparraguirre, Timothy D. Hirzel, Ryan P. Adams et Alán Aspuru-Guzik
ACS Science centrale (2018)
Encodeur automatique variationnel de grammaire (GVAE)
Matt J. Kusner, Brooks Paige, José Miguel Hernández-Lobato
CIML 2017
Encodeur automatique variationnel dirigé par la syntaxe pour les données structurées (SD-VAE)
Hanjun Dai, Yingtao Tian, Bo Dai, Steven Skiena, Le Song
ICLR 2018
Encodeur automatique variationnel d'arbre de jonction pour la génération de graphiques moléculaires (JT-VAE)
Wengong Jin, Regina Barzilay, Tommi Jaakkola
CIML 2018
E(n) Flux de normalisation équivariants (E-NF)
Victor Garcia Satorras, Emiel Hoogeboom, Fabian Fuchs, Ingmar Posner, Max Welling
NeuroIPS 2021
Génération adaptée à la symétrie d'ensembles de points 3D pour la découverte ciblée de molécules (G-SchNet)
Niklas Gebauer, Michael Gastegger, Kristof Schütt
NeurIPS 2019
Diffusion équivariante pour la génération de molécules en 3D (EDM)
Emiel Hoogeboom, Victor Garcia Satorras, Clément Vignac, Max Welling
CIML 2022
Diffusion complète de géométrie pour la génération et l'optimisation de molécules 3D (GCDM)
Alex Morehead, Jianlin Cheng
arXiv:2302.04313 (2023)
MDM : Modèle de diffusion moléculaire pour la génération de molécules 3D (MDM)
Lei Huang, Hengtong Zhang, Tingyang Xu, Ka-Chun Wong
AAAI 2023
Modèles géométriques de diffusion latente pour la génération de molécules 3D (GeoLDM)
Minkai Xu, Alexander S Powers, Ron O. Dror, Stefano Ermon, Jure Leskovec
CIML 2023
Apprentissage de modèles de diffusion conjoints 2D et 3D pour la génération complète de molécules (JODO)
Han Huang, Leilei Sun, Bowen Du, Weifeng Lv
arXiv:2305.12347 (2023)
MiDi : Graphe mixte et diffusion de débruitage 3D pour la génération de molécules (MiDi)
Clément Vignac, Nagham Osman, Laura Toni, Pascal Frossard
arXiv:2302.09048 (2023)
Réseaux de neurones convolutifs tridimensionnels et ensemble de données croisées pour la conception de médicaments basée sur la structure (CrossDocked2020)
Paul G. Francoeur, Tomohide Masuda, Jocelyn Sunseri, Andrew Jia, Richard B. Iovanisci, Ian Snyder, David R. Koes
AEC JCIM 2020
ZINC20 — Une base de données chimique gratuite à très grande échelle pour la découverte de ligands (ZINC20)
John J. Irwin, Khanh G. Tang, Jennifer Young, Chinzorig Dandarchuluun, Benjamin R. Wong, Munkhzul Khurelbaatar, Yurii S. Moroz, John Mayfield, Roger A. Sayle
AEC JCIM 2020
Liaison MOAD (Mère de toutes les bases de données) (Liaison MOAD)
Liegi Hu, Mark L. Benson, Richard D. Smith, Michael G. Lerner, Heather A. Carlson
Protéines 2005
AutoDock Vina : amélioration de la vitesse et de la précision de l'amarrage avec une nouvelle fonction de notation, une optimisation efficace et le multithreading (Vina AutoDock)
Oleg Trott, Arthur J. Olson
CCM 2010
Quantifier la beauté chimique des médicaments (QED) G Richard Bickerton, Gaia V Paolini, Jérémy Besnard, Sorel Muresan, Andrew L Hopkins
Chimie naturelle (2012)
Estimation du score d'accessibilité synthétique de molécules de type médicament basée sur la complexité moléculaire et les contributions de fragments (SAScore)
Peter Ertl, Ansgar Schuffenhauer Journal of Cheminformatics 2009
DrugGPT : une stratégie basée sur le GPT pour concevoir des ligands potentiels ciblant des protéines spécifiques (DrugGPT)
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv (2023)
Génération de structures moléculaires 3D conditionnelles à un site de liaison à un récepteur avec des modèles génératifs profonds (LiGAN)
Tomohide Masuda, Matthew Ragoza, David Ryan Koes
arXiv:2010.14442 (2020)
Pocket2Mol : échantillonnage moléculaire efficace basé sur des poches de protéines 3D (Pocket2Mol)
Xingang Peng, Shitong Luo, Jiaqi Guan, Qi Xie, Jian Peng, Jianzhu Ma
CIML 2022
Un modèle génératif 3D pour la conception de médicaments basés sur la structure
Shitong Luo, Jiaqi Guan, Jianzhu Ma, Jian Peng
NeuroIPS 2021
Diffusion équivariante 3D pour la génération de molécules sensibles à la cible et la prédiction d'affinité (TargetDiff)
Jiaqi Guan, Wesley Wei Qian, Xingang Peng, Yufeng Su, Jian Peng, Jianzhu Ma
ICLR 2023
Conception de médicaments basée sur la structure avec des modèles de diffusion équivariants (DiffSBDD)
Arne Schneuing, Yuanqi Du, Charles Harris, Arian Jamasb, Ilia Igashov, Weitao Du, Tom Blundell, Pietro Lió, Carla Gomes, Max Welling, Michael Bronstein, Bruno Correia
arXiv:2210.13695 (2022)
GEOM, conformations moléculaires annotées en énergie pour la prédiction des propriétés et la génération moléculaire (GEOM)
Simon Axelrod, Rafael Gómez-Bombarelli
Données scientifiques 2022
SchNet : un réseau neuronal convolutif à filtre continu pour la modélisation des interactions quantiques (ISO17)
Kristof Schütt, Pieter-Jan Kindermans, Huziel Enoc Sauceda Felix, Stefan Chmiela, Alexandre Tkatchenko, Klaus-Robert Müller
NeurIPS 2017
Prédiction de la géométrie moléculaire à l'aide d'un réseau neuronal à graphes génératifs profonds (CVGAE)
Elman Mansimov, Omar Mahmood, Seokho Kang, Kyunghyun Cho
Rapports scientifiques 2019
Un modèle génératif pour la géométrie de distance moléculaire (GraphDG)
Gregor NC Simm, José Miguel Hernández-Lobato
CIML 2020
Apprentissage de la dynamique générative neuronale pour la génération de conformation moléculaire (CGCF)
Minkai Xu, Shitong Luo, Yoshua Bengio, Jian Peng, Jian Tang
ICLR 2021
GeoMol : génération géométrique de torsion d'ensembles de conformateurs moléculaires 3D (GeoMol)
Octavian Ganea, Lagnajit Pattanaik, Connor Coley, Regina Barzilay, Klavs Jensen, William Green, Tommi Jaakkola
NeuroIPS 2021
Champs de gradient d'apprentissage pour la génération de conformation moléculaire (ConfGF)
Chence Shi, Shitong Luo, Minkai Xu, Jian Tang
CIML 2021
Prédire la conformation moléculaire via l'appariement de scores graphiques dynamiques (DGSM)
Shitong Luo, Chence Shi, Minkai Xu, Jian Tang
NeuroIPS 2021
GeoDiff : un modèle de diffusion géométrique pour la génération de conformation moléculaire (GeoDiff)
Minkai Xu, Lantao Yu, Yang Song, Chence Shi, Stefano Ermon, Jian Tang
ICLR 2022
UniProt : la base de connaissances Universal Protein (UniProt)
Rolf Apweiler, Amos Bairoch, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Serenella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J. Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Yeh
Recherche sur les acides nucléiques 2004
OntoProtein : préentraînement des protéines avec intégration d'ontologies génétiques (ProteinKG)
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
ICLR 2022
La banque de données sur les protéines (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Recherche sur les acides nucléiques 2000
Base de données sur la structure des protéines AlphaFold : extension massive de la couverture structurelle de l'espace des séquences protéiques avec des modèles de haute précision (AlphaFoldDB)
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green , Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar
Recherche sur les acides nucléiques 2022
Pfam : La base de données des familles de protéines en 2021 (Pfam)
Jaina Mistry, Sara Chuguransky, Lowri Williams, Matloob Qureshi, Gustavo A Salazar, Erik LL Sonnhammer, Silvio CE Tosatto, Lisanna Paladin, Shriya Raj, Lorna J Richardson, Robert D Finn, Alex Bateman
Recherche sur les acides nucléiques 2021
Ingénierie rationnelle unifiée des protéines avec apprentissage profond des représentations basé sur des séquences (UniRep)
Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church
Méthodes Nature 2019
Prottrans : Vers la compréhension du langage de la vie grâce à l'apprentissage auto-supervisé (ProtBERT)
Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rehawi, Yu Wang, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Martin Steinegger, Debsindhu Bhowmik et Burkhard Rost
IEEE PAMI 2021
La structure et la fonction biologiques émergent de l'apprentissage non supervisé jusqu'à 250 millions de séquences protéiques (ESM-1b)
Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, Rob Fergus
PNAS 2021
Transformateur MSA (Transformateur MSA)
Roshan M Rao, Jason Liu, Robert Verkuil, Joshua Meier, John Canny, Pieter Abbeel, Tom Sercu, Alexander Rives
CIML 2021
Augmentation de séquence récupérée pour l'apprentissage de la représentation des protéines (RSA)
Chang Ma, Haiteng Zhao, Lin Zheng, Jiayi Xin, Qintong Li, Lijun Wu, Zhihong Deng, Yang Lu, Qi Liu, Lingpeng Kong
bioRxiv (2023)
OntoProtein : préentraînement des protéines avec intégration d'ontologies génétiques (OntoProtein)
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
ICLR 2022
Apprentissage de la représentation des protéines via la modélisation de structure primaire améliorée (KeAP)
Hong-Yu Zhou, Yunxiang Fu, Zhicheng Zhang, Cheng Bian, Yizhou Yu
bioRxiv (2023)
Convolution intrinsèque-extrinsèque et mise en commun pour l'apprentissage sur les structures protéiques 3D (IEConv)
Pedro Hermosilla, Marco Schäfer, Matěj Lang, Gloria Fackelmann, Pere Pau Vázquez, Barbora Kozlíková, Michael Krone, Tobias Ritschel, Timo Ropinski
ICLR 2021
Prédiction de la fonction des protéines basée sur la structure à l'aide de réseaux convolutifs graphiques (DeepFRI)
Vladimir Gligorijević, P. Douglas Renfrew, Tomasz Kosciolek, Julia Koehler Leman, Daniel Berenberg, Tommi Vatanen, Chris Chandler, Bryn C. Taylor, Ian M. Fisk, Hera Vlamakis, Ramnik J. Xavier, Rob Knight, Kyunghyun Cho, Richard Bonneau
Communications Nature 2021
Apprentissage de la représentation des protéines par pré-entraînement de structure géométrique (GearNET)
Zuobai Zhang, Minghao Xu, Arian Jamasb, Vijil Chenthamarakshan, Aurélie Lozano, Payel Das, Jian Tang
arXiv:2203.06125 (2022)
La banque de données sur les protéines (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Recherche sur les acides nucléiques 2000
Évaluation critique des méthodes de prédiction de la structure des protéines (CASP) — Round XIV (CASP14)
Andriy Kryshtafovych, Torsten Schwede, Maya Topf, Krzysztof Fidelis, John Moult
Protéines 2021
Évaluation continue automatisée du modèle (CAMEO) complétant l'évaluation critique de la prédiction de la structure dans CASP12 (CAMEO)
Jürgen Haas, Alessandro Barbato, Dario Behringer, Gabriel Studer, Steven Roth, Martino Bertoni, Khaled Mostaguir, Rafal Gumienny, Torsten Schwede
Protéines 2017
LGA : une méthode pour trouver des similitudes 3D dans les structures protéiques (GDT-TS)
Adam Zemla
Acides nucléiques 2003
Fonction de notation pour l'évaluation automatisée de la qualité du modèle de structure protéique (TM-score)
Yang Zhang, Jeffrey Skolnick
Protéines 2004
lDDT : un score local sans superposition pour comparer les structures et les modèles protéiques à l'aide de tests de différence de distance (lDDT)
Valerio Mariani, Marco Biasini, Alessandro Barbato, Torsten Schwede
Bioinformatique 2013
Prédiction très précise de la structure des protéines avec AlphaFold (AlphaFold)
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon AA Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera -Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis
Nature 2021)
Le serveur trRosetta pour une prédiction rapide et précise de la structure des protéines (trRosetta)
Zongyang Du, Hong Su, Wenkai Wang, Lisha Ye, Hong Wei, Zhenling Peng, Ivan Anishchenko, David Baker, Jianyi Yang Protocoles naturels 2021
Prédiction précise des structures et des interactions protéiques à l'aide d'un réseau neuronal à trois pistes (RoseTTAFold)
Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, Gyu Rie Lee, Jue Wang, Qian Cong, Lisa N. Kinch, R. Dustin Schaeffer, Claudia Millán, Hahnbeom Park, Carson Adams, Caleb R. Glassman, Andy DeGiovanni, Jose H. Pereira, Andria V. Rodrigues, Alberdina A. van Dijk, Ana C. Ebrecht, Diederik J. Opperman, Theo Sagmeister, Christoph Buhlheller, Tea Pavkov-Keller, Manoj K. Rathinaswamy, Udit Dalwadi, Calvin K. Yip, John E. Burke, K. Christopher Garcia, Nick V. Grishin, Paul D. Adams , Randy J.Read, David Baker
Sciences 2021
Prédiction à l'échelle évolutive de la structure des protéines au niveau atomique avec un modèle de langage (ESMFold)
Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Nikita Smetanin, Robert Verkuil, Ori Kabeli, Yaniv Shmueli, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Salvatore Candido, Alexander Rives
Sciences 2023
EigenFold : prédiction générative de la structure des protéines avec des modèles de diffusion (EigenFold)
Bowen Jing, Ezra Erives, Peter Pao-Huang, Gabriele Corso, Bonnie Berger, Tommi Jaakkola
arXiv:2304.02198 (2023)
La banque de données sur les protéines (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Recherche sur les acides nucléiques 2000
UniProt : la base de connaissances Universal Protein (UniRef/UniParc)
Rolf Apweiler, Amos Bairoch, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Serenella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J. Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Yeh
Recherche sur les acides nucléiques 2004
CATH : annotations structurelles et fonctionnelles complètes pour les séquences du génome (CATH)
Ian Sillitoe, Tony E. Lewis, Alison Cuff, Sayoni Das, Paul Ashford, Natalie L. Dawson, Nicholas Furnham, Roman A. Laskowski, David Lee, Jonathan G. Lees, Sonja Lehtinen, Romain A. Studer, Janet Thornton, Christine A.Orengo
Recherche sur les acides nucléiques 2015
Prédiction directe de profils de séquences compatibles avec une structure protéique par des réseaux de neurones avec des profils locaux basés sur des fragments et non locaux basés sur l'énergie (TS500)
Zhixiu Li, Yuedong Yang, Eshel Faraggi, Jian Zhan et Yaoqi Zhou
Protéines 2014
ProteinVAE : AutoEncodeur variationnel pour la conception translationnelle de protéines (ProteinVAE)
Suyue Lyu, Shahin Sowlati-Hashjin, Michael Garton
bioRxiv (2023)
ProT-VAE : AutoEncodeur variationnel de transformateur de protéines pour la conception fonctionnelle de protéines (ProT-VAE)
Emre Sevgen, Joshua Moller, Adrian Lange, John Parker, Sean Quigley, Jeff Mayer, Poonam Srivastava, Sitaram Gayatri, David Hosfield, Maria Korshunova, Micha Livne, Michelle Gill, Rama Ranganathan, Anthony B. Costa, Andrew L. Ferguson
bioRxiv (2023)
Expansion des espaces de séquences protéiques fonctionnelles à l'aide de réseaux antagonistes génératifs (ProteinGAN)
Donatas Repecka, Vykintas Jauniskis, Laurynas Karpus, Elzbieta Rembeza, Irmantas Rokaitis, Jan Zrimec, Simona Poviloniene, Audrius Laurynenas, Sandra Viknander, Wissam Abuajwa, Otto Savolainen, Rolandas Meskys, Martin KM Engqvist, Aleksej Zelezniak
Intelligence artificielle naturelle (2021)
Conception de protéines rapide et flexible à l'aide de réseaux neuronaux à graphes profonds (ProteinSolver)
Alexey Strokach, David Becerra, Carles Corbi-Verge, Albert Perez-Riba, Philip M. Kim
Systèmes cellulaires 2020
PiFold : Vers un repliement inverse efficace et efficient des protéines (PiFold)
Zhangyang Gao, Cheng Tan, Stan Z. Li
ICLR 2023
Conception de séquences protéiques avec un potentiel appris
Namrata Anand, Raphael Eguchi, Irimpan I. Mathews, Carla P. Perez, Alexander Derry, Russ B. Altman, Po-Ssu Huang
Communications Nature 2022
Conception de séquences protéiques sans rotamères basée sur l'apprentissage profond et l'autocohérence (ABACUS-R)
Yufeng Liu, Lu Zhang, Weilun Wang, Min Zhu, Chenchen Wang, Fudong Li, Jiahai Zhang, Houqiang Li, Quan Chen, Haiyan Liu
Sciences informatiques de la nature 2022
ProRefiner : une stratégie de raffinement basée sur l'entropie pour le repliement inverse des protéines avec une attention globale aux graphes (ProRefiner)
Xinyi Zhou, Guangyong Chen, Junjie Ye, Ercheng Wang, Jun Zhang, Cong Mao, Zhanwei Li, Jianye Hao, Xingxu Huang, Jin Tang, Pheng Ann Heng
Communications Nature 2023
Graphormer a supervisé la méthode de conception de novo des protéines et la validation des fonctions (GPD)
Junxi Mu, Zhengxin Li, Bo Zhang, Qi Zhang, Jamshed Iqbal, Abdul Wadood, Ting Wei, Yan Feng, Hai-Feng Chen
Briefings en bioinformatique 2024
Apprendre de la structure des protéines avec les perceptrons vectoriels géométriques (GVP-GNN)
Bowen Jing, Stephan Eismann, Patricia Suriana, Raphael John Lamarre Townshend, Ron Dror
ICLR 2021
Apprentissage du pliage inverse à partir de millions de structures prédites (ESM-IF1)
Chloe Hsu, Robert Verkuil, Jason Liu, Zeming Lin, Brian Hie, Tom Sercu, Adam Lerer, Alexander Rives
CIML 2022
Conception robuste de séquences de protéines basée sur l'apprentissage profond à l'aide de ProteinMPNN (ProteinMPNN)
J Dauparas, I Anishchenko, N Bennett, H Bai, RJ Ragotte, LF Milles, BIM Wicky, A Courbet, RJ de Haas, N Bethel, PJY Leung, TF Huddy, S Pellock, D Tischer, F Chan, B Koepnick, H Nguyen, A Kang, B Sankaran, AK Bera, NP King, D Baker
Sciences 2022
La banque de données sur les protéines (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Recherche sur les acides nucléiques 2000
Base de données sur la structure des protéines AlphaFold : extension massive de la couverture structurelle de l'espace des séquences protéiques avec des modèles de haute précision (AlphaFoldDB)
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green , Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar
Recherche sur les acides nucléiques 2022
SCOP : Une base de données de classification structurelle des protéines pour l'étude des séquences et des structures (SCOP)
Alexey G. Murzin, Steven E. Brenner, Tim Hubbard, Cyrus Chothia JMB 1995
SCOPe : améliorations de la classification structurelle des protéines – base de données étendue pour faciliter l'interprétation des variantes et l'apprentissage automatique (SCOPe)
John-Marc Chandonia, Lindsey Guan, Shiangyi Lin, Changhua Yu, Naomi K Fox, Steven E Brenner Recherche sur les acides nucléiques 2022
CATH : annotations structurelles et fonctionnelles complètes pour les séquences du génome (CATH)
Ian Sillitoe, Tony E. Lewis, Alison Cuff, Sayoni Das, Paul Ashford, Natalie L. Dawson, Nicholas Furnham, Roman A. Laskowski, David Lee, Jonathan G. Lees, Sonja Lehtinen, Romain A. Studer, Janet Thornton, Christine A.Orengo
Recherche sur les acides nucléiques 2015
Modélisation probabiliste de diffusion de squelettes protéiques en 3D pour le problème d'échafaudage de motifs (ProtDiff)
Brian L. Trippe, Jason Yim, Doug Tischer, David Baker, Tamara Broderick, Regina Barzilay, Tommi Jaakkola
ICLR 2023
Génération de structure protéique via diffusion par repliement (FoldingDiff)
Kevin E. Wu, Kevin K. Yang, Rianne van den Berg, Sarah Alamdari, James Y. Zou, Alex X. Lu, Ava P. Amini
Communications Nature 2024
Un modèle de diffusion latente pour la génération de structures protéiques (LatentDiff)
Cong Fu, Keqiang Yan, Limei Wang, Wing Yee Au, Michael McThrow, Tao Komikado, Koji Maruhashi, Kanji Uchino, Xiaoning Qian, Shuiwang Ji
BdG 2023
Génération de structures protéiques nouvelles, concevables et diverses par diffusion équivariante de nuages de résidus orientés (Genie)
Yeqing Lin, Mohammed AlQuraishi
arXiv:2301.12485 (2023)
Modèle de diffusion SE (3) avec application à la génération de squelette protéique (FrameDiff)
Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay, Tommi Jaakkola
CIML 2023
Conception de novo de la structure et de la fonction des protéines avec RFdiffusion (RFDiffusion)
Joseph L. Watson, David Juergens, Nathaniel R. Bennett, Brian L. Trippe, Jason Yim, Helen E. Eisenach, Woody Ahern, Andrew J. Borst, Robert J. Ragotte, Lukas F. Milles, Basile IM Wicky, Nikita Hanikel , Samuel J. Pellock, Alexis Courbet, William Sheffler, Jue Wang, Preetham Venkatesh, Isaac Sappington, Susana Vázquez Torres, Anna Lauko, Valentin De Bortoli, Emile Mathieu, Sergey Ovchinnikov, Regina Barzilay, Tommi S. Jaakkola, Frank DiMaio, Minkyung Baek, David Baker
Nature 2023
Modèle de langage protéique supervisé, méthode de conception précise et efficace du squelette protéique (GPDL)
Bo Zhang, Kexin Liu, Zhuoqi Zheng, Yunfeiyang Liu, Junxi Mu, Ting Wei, Hai-Feng Chen
bioRxiv (2023)
Conception conjointe de la séquence et de la structure des protéines basées sur des motifs (GeoPro)
Chanson de Zhenqiao, Zhao Yunlong, Chanson de Yufei, Shi Wenxian, Yang Yang, Lei Li
arXiv:2310.02546 (2023)
Un modèle génératif de protéines entièrement atomiques (Protpardelle)
Alexander E. Chu, Lucy Cheng, Gina El Nesr, Minkai Xu, Po-Ssu Huang
bioRxiv (2023)
Co-conception de séquences et de structures protéiques avec traduction équivariante (ProtSeed)
Chence Shi, Chuanrui Wang, Jiarui Lu, Bozitao Zhong, Jian Tang
ICLR 2023
Apprentissage de la représentation des anticorps pour la découverte de médicaments (BERTTransformer)
Lin Li, Esther Gupta, John Spaeth, Leslie Shing, Tristan Bepler, Rajmonda Sulo Cáceres
arXiv:2210.02881 (2022)
Décrypter la maturation d’affinité des anticorps avec des modèles de langage et un apprentissage faiblement supervisé (AntiBERTy)
Jeffrey A. Ruffolo, Jeffrey J. Gray, Jeremias Sulam
arXiv:2112.07782 (2021)
Décrypter le langage des anticorps grâce à l’apprentissage auto-supervisé (AntiBERTa)
Jinwoo Leem, Laura S. Mitchell, James HR Farmery, Justin Barton, Jacob D. Galson
Patrons 2022
AbLang : un modèle de langage d'anticorps pour compléter des séquences d'anticorps (AbLang)
Tobias H Olsen, Iain H Moal, Charlotte M Deane
Avancées de la bioinformatique 2022
Pré-formation avec Une approche rationnelle pour les anticorps (PARA)
Xiangrui Gao, Changling Cao, Lipeng Lai
bioRxiv (2023)
SAbDab : la base de données d'anticorps structurels (SAbDab)
James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, Charlotte M. Deane
Recherche sur les acides nucléiques 2014
RosettaAntibodyDesign (RAbD) : Un cadre général pour la conception informatique d'anticorps (RAB)
Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D. Weitzner, Xiaozhen Hu, Yumiko Adachi, William R. Schief, Roland L. Dunbrack, Jr.
Biologie computationnelle PLOS 2018
tFold-Ab : prédiction rapide et précise de la structure des anticorps sans homologues de séquence (tFold-Ab)
Jiaxiang Wu, Fandi Wu, Biaobin Jiang, Wei Liu, Peilin Zhao
bioRxiv (2022)
xTrimoABFold : prédiction de novo de la structure des anticorps sans MSA (xTrimoABFold)
Yining Wang, Xumeng Gong, Shaochuan Li, Bing Yang, YiWu Sun, Chuan Shi, Yangang Wang, Cheng Yang, Hui Li, Le Song
arXiv:2212.00735 (2022)
ImmuneBuilder : modèles de Deep-Learning pour prédire les structures des protéines immunitaires (AbodyBuilder)
Brennan Abanades, Wing Ki Wong, Fergus Boyles, Guy Georges, Alexander Bujotzek, Charlotte M. Deane
Nature 2023
ABlooper : prédiction rapide et précise de la structure de la boucle CDR des anticorps avec estimation de la précision (ABlooper)
Brennan Abanades, Guy Georges, Alexander Bujotzek, Charlotte M Deane
Bioinformatique 2022
Les potentiels géométriques issus de l'apprentissage profond améliorent la prédiction des structures de boucle CDR H3 (DeepH3)
Jeffrey A Ruffolo, Carlos Guerra, Sai Pooja Mahajan, Jeremias Sulam, Jeffrey J Gray
Bioinformatique 2020
Modèle simple d'apprentissage profond de bout en bout pour la prédiction de la structure de boucle CDR-H3 (SimpleDH3)
Natalia Zenkova, Ekaterina Sedykh, Tatiana Shugaeva, Vladislav Strashko, Timofei Ermak, Aleksei Shpilman
arXiv:2111.10656 (2021)
Prédiction de la structure des anticorps à l’aide d’un apprentissage profond interprétable (DeepAB)
Jeffrey A. Ruffolo, Jeremias Sulam, Jeffrey J. Gray
Patrons 2021
Prédiction rapide et précise de la structure des anticorps grâce à l’apprentissage profond sur un ensemble massif d’anticorps naturels (IgFold)
Jeffrey A Ruffolo, Lee-Shin Chu, Sai Pooja Mahajan, Jeffrey J Gray
Communications Nature 2023
SAbDab : la base de données d'anticorps structurels (SAbDab)
James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, Charlotte M. Deane
Recherche sur les acides nucléiques 2014
RosettaAntibodyDesign (RAbD) : Un cadre général pour la conception informatique d'anticorps (RAB)
Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D. Weitzner, Xiaozhen Hu, Yumiko Adachi, William R. Schief, Roland L. Dunbrack, Jr.
Biologie computationnelle PLOS 2018
SKEMPI 2.0 : une référence mise à jour des changements dans l'énergie de liaison protéine-protéine, la cinétique et la thermodynamique lors d'une mutation (SKEMPI)
Justina Jankauskaite, Brian Jiménez-García, Justas Dapkunas, Juan Fernández-Recio, Iain H Moal
Bioinformatique 2019
Preuve de principe in silico de la conception d'anticorps basée sur l'apprentissage automatique à une échelle sans contrainte
Rahmad Akbara, Philippe A. Roberta, Cédric R. Weberb, Michael Widrichc, Robert Franka, Milena Pavlovićd, Lonneke Schefferd, Maria Chernigovskayaa, Igor Snapkova, Andrei Slabodkina, Brij Bhushan Mehtaa, Enkelejda Mihoe, Fridtjof Lund-Johansena, Jan Terje Andersena, f, Sepp Hochreiterc, g, Ingrid Hobæk Haffh, Günter Klambauerc, Geir Kjetil Sandved, Victor Greiff
mAbs 2022https://www.tandfonline.com/doi/full/10.1080/19420862.2022.2031482
Réseau neuronal de graphiques de raffinement itératif pour la co-conception de séquences et de structures d'anticorps (RefineGNN)
Wengong Jin, Jeremy Wohlwend, Regina Barzilay, Tommi Jaakkola
ICLR 2022
Conception conditionnelle d'anticorps en tant que traduction de graphiques équivariants 3D (MEAN)
Xiangzhe Kong, Wenbing Huang, Yang Liu
ICLR 2023
Cross-Gate MLP avec intégration invariante de complexes protéiques est un concepteur d'anticorps unique (ADesigner)
Cheng Tan, Zhangyang Gao, Lirong Wu, Jun Xia, Jiangbin Zheng, Xihong Yang, Yue Liu, Bozhen Hu, Stan Z. Li
AAAI 2024
Conception et optimisation d'anticorps spécifiques à un antigène avec des modèles génératifs basés sur la diffusion pour les structures protéiques (DiffAb)
Shitong Luo, Yufeng Su, Xingang Peng, Sheng Wang, Jian Peng, Jianzhu Ma
NeuroIPS 2022
Apprentissage profond pour un amarrage et une conception de protéines flexibles et spécifiques au site (DockGPT)
Matt McPartlon, Jinbo Xu
bioRxiv (2023)
Amarrage et conception anticorps-antigène via le raffinement équivariant hiérarchique (HERN)
Wengong Jin, Dr Regina Barzilay, Tommi Jaakkola
CIML 2022
Conception d'anticorps à atomes complets de bout en bout (dyMEAN)
Xiangzhe Kong, Wenbing Huang, Yang Liu
CIML 2023
Un modèle de diffusion contrastive multimodal pour la génération de peptides thérapeutiques (MMCD)
Yongkang Wang, Xuan Liu, Feng Huang, Zhankun Xiong, Wen Zhang
AAAI 2024
PepGB : Faciliter la découverte de médicaments peptidiques via des réseaux de neurones graphiques (PepGB)
Yipin Lei, Xu Wang, Meng Fang, Han Li, Xiang Li, Jianyang Zeng
arXiv:2401.14665 (2024)
PepHarmony : un cadre d'apprentissage contrastif multi-vues pour l'encodage intégré de peptides basé sur des séquences et des structures (PepHarmony)
Ruochi Zhang, Haoran Wu, Chang Liu, Huaping Li, Yuqian Wu, Kewei Li, Yifan Wang, Yifan Deng, Jiahui Chen, Fengfeng Zhou, Xin Gao
arXiv:2401.11360 (2024)
PEFT-SP : un réglage fin efficace des paramètres sur des modèles de langage à grandes protéines améliore la prédiction des peptides de signal (PEFT-SP)
Shuai Zeng, Duolin Wang, Dong Xu
bioRxiv (2023)
AdaNovo : séquençage peptidique adaptatif de novo avec informations mutuelles conditionnelles (AdaNovo)
Jun Xia, Shaorong Chen, Jingbo Zhou, Tianze Ling, Wenjie Du, Sizhe Liu, Stan Z. Li
arXiv:2403.07013 (2024)