Actualización: ¡nuestro artículo ha sido aceptado para Briefings in Bioinformatics!
Repositorio del documento de encuesta "Una encuesta sobre IA generativa para el descubrimiento de fármacos de novo : nuevas fronteras en el diseño de moléculas y proteínas".
Xiangru Tang 1 *, Howard Dai 1 *, Elizabeth Knight 1 *, Yunyang Li 1 , Fang Wu 2 , Tianxiao Li 1 , Mark Gerstein 1
1. Universidad de Yale; 2. Universidad de Stanford
(*: Contribución igual)
[**] indica secciones del apéndice.
Sección | Subsección | Conjuntos de datos | Métrica | Modelos |
---|---|---|---|---|
Molécula | Generación independiente del objetivo | Conjuntos de datos | Métrica | Modelos |
Molécula | Generación consciente del objetivo | Conjuntos de datos | Métrica | Modelos |
Molécula | Generación de conformación** | Conjuntos de datos | Métrica | Modelos |
Proteína | Aprendizaje de representación** | Conjuntos de datos | Modelos | |
Proteína | Predicción de estructura | Conjuntos de datos | Métrica | Modelos |
Proteína | Generación de secuencia | Conjuntos de datos | Métrica | Modelos |
Proteína | Diseño de columna vertebral | Conjuntos de datos | Métrica | Modelos |
Anticuerpo | Aprendizaje de representación** | Conjuntos de datos | Modelos | |
Anticuerpo | Predicción de estructura** | Conjuntos de datos | Métrica | Modelos |
Anticuerpo | Generación de CDR** | Conjuntos de datos | Métrica | Modelos |
péptido | Varios. Tareas** | Modelos |
@article{tang2024survey,
title={A survey of generative ai for de novo drug design: new frontiers in molecule and protein generation},
author={Tang, Xiangru and Dai, Howard and Knight, Elizabeth and Wu, Fang and Li, Yunyang and Li, Tianxiao and Gerstein, Mark},
journal={Briefings in Bioinformatics},
volume={25},
number={4},
year={2024},
publisher={Oxford Academic}
}
Una descripción general de los temas cubiertos en nuestro artículo. Las secciones resaltadas en azul se pueden encontrar en el texto principal, mientras que las secciones moradas son secciones ampliadas que se encuentran en el apéndice.
Estructuras de química cuántica y propiedades de 134 kilomoléculas (QM9)
Raghunathan Ramakrishnan, Pavlo O. Dral, Matthias Rupp, O. Anatole von Lilienfeld
Datos científicos (2014)
GEOM, conformaciones moleculares anotadas en energía para predicción de propiedades y generación molecular (GEOM)
Simón Axelrod, Rafael Gómez-Bombarelli
Datos científicos (2022)
Diseño químico automático utilizando una representación continua de moléculas basada en datos (CVAE)
Rafael Gómez-Bombarelli, Jennifer N. Wei, David Duvenaud, JoséMiguel Hernández-Lobato, Benjamín Sánchez-Lengeling, Dennis Sheberla, Jorge Aguilera-Iparraguirre, Timothy D. Hirzel, Ryan P. Adams y Alán Aspuru-Guzik
Ciencia Central ACS (2018)
Autocodificador variacional de gramática (GVAE)
Matt J. Kusner, Brooks Paige, José Miguel Hernández-Lobato
ICML 2017
Codificador automático variacional dirigido por sintaxis para datos estructurados (SD-VAE)
Hanjun Dai, Yingtao Tian, Bo Dai, Steven Skiena, Le Song
ICLR 2018
Autocodificador variacional de árbol de unión para generación de gráficos moleculares (JT-VAE)
Wengong Jin, Regina Barzilay, Tommi Jaakkola
ICML 2018
E(n) Flujos de Normalización Equivariantes (E-NF)
Víctor García Satorras, Emiel Hoogeboom, Fabián Fuchs, Ingmar Posner, Max Welling
NeuroIPS 2021
Generación adaptada a la simetría de conjuntos de puntos 3D para el descubrimiento dirigido de moléculas (G-SchNet)
Niklas Gebauer, Michael Gastegger, Kristof Schütt
NeurIPS 2019
Difusión Equivariante para Generación de Moléculas en 3D (EDM)
Emiel Hoogeboom, Víctor García Satorras, Clément Vignac, Max Welling
ICML 2022
Difusión de geometría completa para generación y optimización de moléculas 3D (GCDM)
Alex Morehead, Jianlin Cheng
arXiv:2302.04313 (2023)
MDM: Modelo de Difusión Molecular para Generación de Moléculas 3D (MDM)
Lei Huang, Hengtong Zhang, Tingyang Xu, Ka-Chun Wong
AAAI 2023
Modelos geométricos de difusión latente para generación de moléculas 3D (GeoLDM)
Minkai Xu, Alexander S Powers, Ron O. Dror, Stefano Ermon, Jure Leskovec
ICML 2023
Aprendizaje de modelos conjuntos de difusión 2D y 3D para la generación completa de moléculas (JODO)
Han Huang, Leilei Sun, Bowen Du, Weifeng Lv
arXiv:2305.12347 (2023)
MiDi: Gráfico mixto y difusión de eliminación de ruido 3D para generación de moléculas (MiDi)
Clément Vignac, Nagham Osman, Laura Toni, Pascal Frossard
arXiv:2302.09048 (2023)
Redes neuronales convolucionales tridimensionales y un conjunto de datos cruzados para el diseño de fármacos basado en estructuras (CrossDocked2020)
Paul G. Francoeur, Tomohide Masuda, Jocelyn Sunseri, Andrew Jia, Richard B. Iovanisci, Ian Snyder, David R. Koes
ACS JCIM 2020
ZINC20: una base de datos química gratuita a gran escala para el descubrimiento de ligandos (ZINC20)
John J. Irwin, Khanh G. Tang, Jennifer Young, Chinzorig Dandarchuluun, Benjamin R. Wong, Munkhzul Khurelbaatar, Yurii S. Moroz, John Mayfield, Roger A. Sayle
ACS JCIM 2020
Enlace MOAD (Madre de todas las bases de datos) (Enlace MOAD)
Liegi Hu, Mark L. Benson, Richard D. Smith, Michael G. Lerner, Heather A. Carlson
Proteínas 2005
AutoDock Vina: mejora de la velocidad y precisión del acoplamiento con una nueva función de puntuación, optimización eficiente y subprocesos múltiples (Vina AutoDock)
Oleg Trott, Arthur J. Olson
JCC 2010
Cuantificar la belleza química de las drogas (QED) G Richard Bickerton, Gaia V Paolini, Jérémy Besnard, Sorel Muresan, Andrew L Hopkins
Química de la naturaleza (2012)
Estimación de la puntuación de accesibilidad sintética de moléculas similares a fármacos en función de la complejidad molecular y las contribuciones de los fragmentos (SAScore)
Peter Ertl, Ansgar Schuffenhauer Revista de quimioinformática 2009
DrugGPT: una estrategia basada en GPT para diseñar ligandos potenciales dirigidos a proteínas específicas (DrugGPT)
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv (2023)
Generación de estructuras moleculares 3D condicionadas a un sitio de unión al receptor con modelos generativos profundos (LiGAN)
Tomohide Masuda, Matthew Ragoza, David Ryan Koes
arXiv:2010.14442 (2020)
Pocket2Mol: muestreo molecular eficiente basado en bolsas de proteínas 3D (Pocket2Mol)
Xingang Peng, Shitong Luo, Jiaqi Guan, Qi Xie, Jian Peng, Jianzhu Ma
ICML 2022
Un modelo generativo 3D para el diseño de fármacos basado en estructuras
Shitong Luo, Jiaqi Guan, Jianzhu Ma, Jian Peng
NeuroIPS 2021
Difusión equivalente en 3D para generación de moléculas con reconocimiento de objetivos y predicción de afinidad (TargetDiff)
Jiaqi Guan, Wesley Wei Qian, Xingang Peng, Yufeng Su, Jian Peng, Jianzhu Ma
ICLR 2023
Diseño de fármacos basado en estructura con modelos de difusión equivalentes (DiffSBDD)
Arne Schneuing, Yuanqi Du, Charles Harris, Arian Jamasb, Ilia Igashov, Weitao Du, Tom Blundell, Pietro Lió, Carla Gomes, Max Welling, Michael Bronstein, Bruno Correia
arXiv:2210.13695 (2022)
GEOM, conformaciones moleculares anotadas en energía para predicción de propiedades y generación molecular (GEOM)
Simón Axelrod, Rafael Gómez-Bombarelli
Datos científicos 2022
SchNet: una red neuronal convolucional de filtro continuo para modelar interacciones cuánticas (ISO17)
Kristof Schütt, Pieter-Jan Kindermans, Huziel Enoc Sauceda Felix, Stefan Chmiela, Alexandre Tkatchenko, Klaus-Robert Müller
NeurIPS 2017
Predicción de geometría molecular mediante una red neuronal de gráficos generativos profundos (CVGAE)
Elman Mansimov, Omar Mahmood, Seokho Kang, Kyunghyun Cho
Informes Científicos 2019
Un modelo generativo para la geometría de distancias moleculares (GraphDG)
Gregor NC Simm, José Miguel Hernández-Lobato
ICML 2020
Aprendizaje de dinámica generativa neuronal para la generación de conformación molecular (CGCF)
Minkai Xu, Shitong Luo, Yoshua Bengio, Jian Peng, Jian Tang
ICLR 2021
GeoMol: Generación geométrica torsional de conjuntos de conformadores moleculares 3D (GeoMol)
Octavian Ganea, Lagnajit Pattanaik, Connor Coley, Regina Barzilay, Klavs Jensen, William Green, Tommi Jaakkola
NeuroIPS 2021
Aprendizaje de campos de gradiente para la generación de conformación molecular (ConfGF)
Chence Shi, Shitong Luo, Minkai Xu, Jian Tang
ICML 2021
Predicción de la conformación molecular mediante coincidencia de puntuación de gráfico dinámico (DGSM)
Shitong Luo, Chence Shi, Minkai Xu, Jian Tang
NeuroIPS 2021
GeoDiff: un modelo de difusión geométrica para la generación de conformación molecular (GeoDiff)
Minkai Xu, Lantao Yu, Yang Song, Chence Shi, Stefano Ermon, Jian Tang
ICLR 2022
UniProt: la base de conocimientos de proteínas universales (UniProt)
Rolf Apweiler, Amos Bairoch, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Serenella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J. Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Yeh
Investigación de ácidos nucleicos 2004
OntoProtein: preentrenamiento de proteínas con incrustación de ontología genética (ProteinKG)
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
ICLR 2022
El banco de datos de proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Investigación de ácidos nucleicos 2000
Base de datos de estructura de proteínas AlphaFold: ampliación masiva de la cobertura estructural del espacio de secuencia de proteínas con modelos de alta precisión (AlphaFoldDB)
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green , Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar
Investigación de ácidos nucleicos 2022
Pfam: la base de datos de familias de proteínas en 2021 (Pfam)
Jaina Mistry, Sara Chuguransky, Lowri Williams, Matloob Qureshi, Gustavo A Salazar, Erik LL Sonnhammer, Silvio CE Tosatto, Lisanna Paladin, Shriya Raj, Lorna J Richardson, Robert D Finn, Alex Bateman
Investigación de ácidos nucleicos 2021
Ingeniería de proteínas racional unificada con aprendizaje de representación profunda basado en secuencias (UniRep)
Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church
Métodos de la naturaleza 2019
Prottrans: Hacia la comprensión del lenguaje de la vida a través del aprendizaje autosupervisado (ProtBERT)
Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rehawi, Yu Wang, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Martin Steinegger, Debsindhu Bhowmik y Burkhard Rost
IEEE PAMI 2021
La estructura y función biológicas surgen de la ampliación del aprendizaje no supervisado a 250 millones de secuencias de proteínas (ESM-1b)
Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, Rob Fergus
PNAS 2021
Transformador MSA (Transformador MSA)
Roshan M Rao, Jason Liu, Robert Verkuil, Joshua Meier, John Canny, Pieter Abbeel, Tom Sercu, Alexander Rives
ICML 2021
Aumento de secuencia recuperada para el aprendizaje de representación de proteínas (RSA)
Chang Ma, Haiteng Zhao, Lin Zheng, Jiayi Xin, Qintong Li, Lijun Wu, Zhihong Deng, Yang Lu, Qi Liu, Lingpeng Kong
bioRxiv (2023)
OntoProtein: preentrenamiento de proteínas con incrustación de ontología genética (OntoProtein)
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
ICLR 2022
Aprendizaje de representación de proteínas a través del modelado de estructuras primarias mejorado por el conocimiento (KeAP)
Hong-Yu Zhou, Yunxiang Fu, Zhicheng Zhang, Cheng Bian, Yizhou Yu
bioRxiv (2023)
Convolución y agrupación intrínseca-extrínseca para aprender sobre estructuras de proteínas 3D (IEConv)
Pedro Hermosilla, Marco Schäfer, Matěj Lang, Gloria Fackelmann, Pere Pau Vázquez, Barbora Kozlíková, Michael Krone, Tobias Ritschel, Timo Ropinski
ICLR 2021
Predicción de funciones de proteínas basada en estructuras mediante redes convolucionales de gráficos (DeepFRI)
Vladimir Gligorijević, P. Douglas Renfrew, Tomasz Kosciolek, Julia Koehler Leman, Daniel Berenberg, Tommi Vatanen, Chris Chandler, Bryn C. Taylor, Ian M. Fisk, Hera Vlamakis, Ramnik J. Xavier, Rob Knight, Kyunghyun Cho, Richard Bonneau
Comunicaciones de la naturaleza 2021
Aprendizaje de representación de proteínas mediante preentrenamiento de estructuras geométricas (GearNET)
Zuobai Zhang, Minghao Xu, Arian Jamasb, Vijil Chenthamarakshan, Aurelie Lozano, Payel Das, Jian Tang
arXiv:2203.06125 (2022)
El banco de datos de proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Investigación de ácidos nucleicos 2000
Evaluación crítica de métodos de predicción de la estructura de proteínas (CASP): Ronda XIV (CASP14)
Andriy Kryshtafovych, Torsten Schwede, Maya Topf, Krzysztof Fidelis, John Moult
Proteínas 2021
Evaluación continua de modelos automatizados (CAMEO) que complementa la evaluación crítica de la predicción de estructuras en CASP12 (CAMEO)
Jürgen Haas, Alessandro Barbato, Dario Behringer, Gabriel Studer, Steven Roth, Martino Bertoni, Khaled Mostaguir, Rafal Gumienny, Torsten Schwede
Proteínas 2017
LGA: un método para encontrar similitudes 3D en estructuras de proteínas (GDT-TS)
Adam Zemla
Ácidos nucleicos 2003
Función de puntuación para la evaluación automatizada de la calidad de la plantilla de estructura de proteínas (puntuación TM)
Yang Zhang, Jeffrey Skolnick
Proteínas 2004
lDDT: una puntuación local sin superposición para comparar estructuras y modelos de proteínas mediante pruebas de diferencia de distancias (lDDT)
Valerio Mariani, Marco Biasini, Alessandro Barbato, Torsten Schwede
Bioinformática 2013
Predicción de estructura de proteínas de alta precisión con AlphaFold (AlphaFold)
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon AA Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera -Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis
Naturaleza 2021)
El servidor trRosetta para una predicción rápida y precisa de la estructura de proteínas (trRosetta)
Zongyang Du, Hong Su, Wenkai Wang, Lisha Ye, Hong Wei, Zhenling Peng, Ivan Anishchenko, David Baker, Jianyi Yang Protocolos de la naturaleza 2021
Predicción precisa de estructuras e interacciones de proteínas utilizando una red neuronal de tres vías (RoseTTAFold)
Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, Gyu Rie Lee, Jue Wang, Qian Cong, Lisa N. Kinch, R. Dustin Schaeffer, Claudia Millán, Hahnbeom Park, Carson Adams, Caleb R. Glassman, Andy DeGiovanni, José H. Pereira, Andria V. Rodrigues, Alberdina A. van Dijk, Ana C. Ebrecht, Diederik J. Opperman, Theo Sagmeister, Christoph Buhlheller, Tea Pavkov-Keller, Manoj K. Rathinaswamy, Udit Dalwadi, Calvin K. Yip, John E. Burke, K. Christopher García, Nick V. Grishin, Paul D. Adams , Randy J. Leer, David Baker
Ciencia 2021
Predicción a escala evolutiva de la estructura de proteínas a nivel atómico con un modelo de lenguaje (ESMFold)
Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Nikita Smetanin, Robert Verkuil, Ori Kabeli, Yaniv Shmueli, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Salvatore Candido, Alexander Rives
Ciencia 2023
EigenFold: Predicción generativa de la estructura de proteínas con modelos de difusión (EigenFold)
Bowen Jing, Ezra Erives, Peter Pao-Huang, Gabriele Corso, Bonnie Berger, Tommi Jaakkola
arXiv:2304.02198 (2023)
El banco de datos de proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Investigación de ácidos nucleicos 2000
UniProt: la base de conocimientos universal sobre proteínas (UniRef/UniParc)
Rolf Apweiler, Amos Bairoch, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Serenella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J. Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Yeh
Investigación de ácidos nucleicos 2004
CATH: anotaciones estructurales y funcionales integrales para secuencias del genoma (CATH)
Ian Sillitoe, Tony E. Lewis, Alison Cuff, Sayoni Das, Paul Ashford, Natalie L. Dawson, Nicholas Furnham, Roman A. Laskowski, David Lee, Jonathan G. Lees, Sonja Lehtinen, Romain A. Studer, Janet Thornton, Christine A. Orengo
Investigación de ácidos nucleicos 2015
Predicción directa de perfiles de secuencias compatibles con una estructura proteica mediante redes neuronales con perfiles locales basados en fragmentos y no locales basados en energía (TS500)
Zhixiu Li, Yuedong Yang, Eshel Faraggi, Jian Zhan y Yaoqi Zhou
Proteínas 2014
ProteinVAE: Autocodificador variacional para diseño de proteínas traslacionales (ProteinVAE)
Suyue Lyu, Shahin Sowlati-Hashjin, Michael Garton
bioRxiv (2023)
ProT-VAE: Autocodificador variacional de transformador de proteínas para diseño de proteínas funcionales (ProT-VAE)
Emre Sevgen, Joshua Moller, Adrian Lange, John Parker, Sean Quigley, Jeff Mayer, Poonam Srivastava, Sitaram Gayatri, David Hosfield, Maria Korshunova, Micha Livne, Michelle Gill, Rama Ranganathan, Anthony B. Costa, Andrew L. Ferguson
bioRxiv (2023)
Ampliación de los espacios de secuencia de proteínas funcionales mediante redes generativas adversarias (ProteinGAN)
Donatas Repecka, Vykintas Jauniskis, Laurynas Karpus, Elzbieta Rembeza, Irmantas Rokaitis, Jan Zrimec, Simona Poviloniene, Audrius Laurynenas, Sandra Viknander, Wissam Abuajwa, Otto Savolainen, Rolandas Meskys, Martin KM Engqvist, Aleksej Zelezniak
Inteligencia de la máquina de la naturaleza (2021)
Diseño de proteínas rápido y flexible utilizando redes neuronales de gráficos profundos (ProteinSolver)
Alexey Strokach, David Becerra, Carles Corbi-Verge, Albert Pérez-Riba, Philip M. Kim
Sistemas celulares 2020
PiFold: Hacia un plegamiento inverso de proteínas eficaz y eficiente (PiFold)
Zhangyang Gao, Cheng Tan, Stan Z. Li
ICLR 2023
Diseño de secuencia de proteínas con potencial aprendido.
Namrata Anand, Raphael Eguchi, Irimpan I. Mathews, Carla P. Perez, Alexander Derry, Russ B. Altman, Po-Ssu Huang
Comunicaciones de la naturaleza 2022
Diseño de secuencia de proteínas sin rotámeros basado en aprendizaje profundo y autoconsistencia (ABACUS-R)
Yufeng Liu, Lu Zhang, Weilun Wang, Min Zhu, Chenchen Wang, Fudong Li, Jiahai Zhang, Houqiang Li, Quan Chen, Haiyan Liu
Ciencia Computacional de la Naturaleza 2022
ProRefiner: una estrategia de refinamiento basada en entropía para el plegamiento inverso de proteínas con atención gráfica global (ProRefiner)
Xinyi Zhou, Guangyong Chen, Junjie Ye, Ercheng Wang, Jun Zhang, Cong Mao, Zhanwei Li, Jianye Hao, Xingxu Huang, Jin Tang, Pheng Ann Heng
Comunicaciones de la naturaleza 2023
Graphormer supervisó el método de diseño de proteínas de novo y la validación de funciones (GPD)
Junxi Mu, Zhengxin Li, Bo Zhang, Qi Zhang, Jamshed Iqbal, Abdul Wadood, Ting Wei, Yan Feng, Hai-Feng Chen
Jornadas informativas en Bioinformática 2024
Aprendiendo de la estructura de las proteínas con perceptrones vectoriales geométricos (GVP-GNN)
Bowen Jing, Stephan Eismann, Patricia Suriana, Raphael John Lamarre Townshend, Ron Dror
ICLR 2021
Aprendizaje del plegado inverso a partir de millones de estructuras predichas (ESM-IF1)
Chloe Hsu, Robert Verkuil, Jason Liu, Zeming Lin, Brian Hie, Tom Sercu, Adam Lerer, Alexander Rives
ICML 2022
Diseño robusto de secuencia de proteínas basado en aprendizaje profundo utilizando ProteinMPNN (ProteinMPNN)
J Dauparas, I Anishchenko, N Bennett, H Bai, RJ Ragotte, LF Milles, BIM Wicky, A Courbet, RJ de Haas, N Bethel, PJY Leung, TF Huddy, S Pellock, D Tischer, F Chan, B Koepnick, H Nguyen, A Kang, B Sankaran, AK Bera, NP King, D Baker
Ciencia 2022
El banco de datos de proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Investigación de ácidos nucleicos 2000
Base de datos de estructura de proteínas AlphaFold: ampliación masiva de la cobertura estructural del espacio de secuencia de proteínas con modelos de alta precisión (AlphaFoldDB)
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green , Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar
Investigación de ácidos nucleicos 2022
SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras (SCOP)
Alexey G. Murzin, Steven E. Brenner, Tim Hubbard, Cyrus Chothia JMB 1995
SCOPe: mejoras en la clasificación estructural de proteínas – base de datos ampliada para facilitar la interpretación de variantes y el aprendizaje automático (SCOPe)
John-Marc Chandonia, Lindsey Guan, Shiangyi Lin, Changhua Yu, Naomi K Fox, Steven E Brenner Investigación de ácidos nucleicos 2022
CATH: anotaciones estructurales y funcionales integrales para secuencias del genoma (CATH)
Ian Sillitoe, Tony E. Lewis, Alison Cuff, Sayoni Das, Paul Ashford, Natalie L. Dawson, Nicholas Furnham, Roman A. Laskowski, David Lee, Jonathan G. Lees, Sonja Lehtinen, Romain A. Studer, Janet Thornton, Christine A. Orengo
Investigación de ácidos nucleicos 2015
Modelado probabilístico de difusión de cadenas principales de proteínas en 3D para el problema de andamiaje de motivos (ProtDiff)
Brian L. Trippe, Jason Yim, Doug Tischer, David Baker, Tamara Broderick, Regina Barzilay, Tommi Jaakkola
ICLR 2023
Generación de estructura de proteínas mediante difusión plegable (FoldingDiff)
Kevin E. Wu, Kevin K. Yang, Rianne van den Berg, Sarah Alamdari, James Y. Zou, Alex X. Lu, Ava P. Amini
Comunicaciones de la naturaleza 2024
Un modelo de difusión latente para la generación de estructuras de proteínas (LatentDiff)
Cong Fu, Keqiang Yan, Limei Wang, Wing Yee Au, Michael McThrow, Tao Komikado, Koji Maruhashi, Kanji Uchino, Xiaoning Qian, Shuiwang Ji
Registro 2023
Generación de estructuras proteicas novedosas, diseñables y diversas mediante la difusión equivalente de nubes de residuos orientadas (Genie)
Yeqing Lin, Mohammed AlQuraishi
arXiv:2301.12485 (2023)
Modelo de difusión SE(3) con aplicación a la generación de cadenas principales de proteínas (FrameDiff)
Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay, Tommi Jaakkola
ICML 2023
Diseño de novo de estructura y función de proteínas con RFdiffusion (RFDiffusion)
Joseph L. Watson, David Juergens, Nathaniel R. Bennett, Brian L. Trippe, Jason Yim, Helen E. Eisenach, Woody Ahern, Andrew J. Borst, Robert J. Ragotte, Lukas F. Milles, Basile IM Wicky, Nikita Hanikel , Samuel J. Pellock, Alexis Courbet, William Sheffler, Jue Wang, Preetham Venkatesh, Isaac Sappington, Susana Vázquez Torres, Anna Lauko, Valentin De Bortoli, Emile Mathieu, Sergey Ovchinnikov, Regina Barzilay, Tommi S. Jaakkola, Frank DiMaio, Minkyung Baek, David Baker
Naturaleza 2023
Modelo de lenguaje de proteínas Método supervisado de diseño de columna vertebral de proteínas, preciso y eficiente (GPDL)
Bo Zhang, Kexin Liu, Zhuoqi Zheng, Yunfeiyang Liu, Junxi Mu, Ting Wei, Hai-Feng Chen
bioRxiv (2023)
Diseño conjunto de secuencia y estructura de proteínas basado en motivos (GeoPro)
Zhenqiao Song, Yunlong Zhao, Yufei Song, Wenxian Shi, Yang Yang, Lei Li
arXiv:2310.02546 (2023)
Un modelo generativo de proteínas de todos los átomos (Protpardelle)
Alexander E. Chu, Lucy Cheng, Gina El Nesr, Minkai Xu, Po-Ssu Huang
bioRxiv (2023)
Codiseño de estructura y secuencia de proteínas con traducción equivalente (ProtSeed)
Chence Shi, Chuanrui Wang, Jiarui Lu, Bozitao Zhong, Jian Tang
ICLR 2023
Aprendizaje de representación de anticuerpos para el descubrimiento de fármacos (BERTTransformer)
Lin Li, Esther Gupta, John Spaeth, Leslie Shing, Tristan Bepler, Rajmonda Sulo Caceres
arXiv:2210.02881 (2022)
Descifrando la maduración de la afinidad de los anticuerpos con modelos de lenguaje y aprendizaje débilmente supervisado (AntiBERTy)
Jeffrey A. Ruffolo, Jeffrey J. Gray, Jeremías Sulam
arXiv:2112.07782 (2021)
Descifrando el lenguaje de los anticuerpos mediante aprendizaje autosupervisado (AntiBERTa)
Jinwoo Leem, Laura S. Mitchell, James HR Farmery, Justin Barton, Jacob D. Galson
Patrones 2022
AbLang: un modelo de lenguaje de anticuerpos para completar secuencias de anticuerpos (AbLang)
Tobias H Olsen, Iain H Moal, Charlotte M Deane
Avances en Bioinformática 2022
Preentrenamiento con Un enfoque racional para anticuerpos (PARA)
Xiangrui Gao, Changling Cao, Lipeng Lai
bioRxiv (2023)
SAbDab: la base de datos de anticuerpos estructurales (SAbDab)
James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, Charlotte M. Deane
Investigación de ácidos nucleicos 2014
RosettaAntibodyDesign (RAbD): un marco general para el diseño computacional de anticuerpos (RAB)
Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D. Weitzner, Xiaozhen Hu, Yumiko Adachi, William R. Schief, Roland L. Dunbrack, Jr.
PLOS Biología Computacional 2018
tFold-Ab: Predicción rápida y precisa de la estructura de anticuerpos sin homólogos de secuencia (tFold-Ab)
Jiaxiang Wu, Fandi Wu, Biaobin Jiang, Wei Liu, Peilin Zhao
bioRxiv (2022)
xTrimoABFold: Predicción de novo de la estructura de anticuerpos sin MSA (xTrimoABFold)
Yining Wang, Xumeng Gong, Shaochuan Li, Bing Yang, YiWu Sun, Chuan Shi, Yangang Wang, Cheng Yang, Hui Li, Le Song
arXiv:2212.00735 (2022)
ImmuneBuilder: Modelos de aprendizaje profundo para predecir las estructuras de proteínas inmunes (ABodyBuilder)
Brennan Abanades, Wing Ki Wong, Fergus Boyles, Guy Georges, Alexander Bujotzek, Charlotte M. Deane
Naturaleza 2023
ABlooper: predicción rápida y precisa de la estructura del bucle CDR de anticuerpos con estimación de precisión (ABlooper)
Brennan Abanades, Guy Georges, Alexander Bujotzek, Charlotte M Deane
Bioinformática 2022
Los potenciales geométricos del aprendizaje profundo mejoran la predicción de las estructuras de bucle CDR H3 (DeepH3)
Jeffrey A Ruffolo, Carlos Guerra, Sai Pooja Mahajan, Jeremias Sulam, Jeffrey J Gray
Bioinformática 2020
Modelo simple de aprendizaje profundo de un extremo a otro para la predicción de la estructura del bucle CDR-H3 (SimpleDH3)
Natalia Zenkova, Ekaterina Sedykh, Tatiana Shugaeva, Vladislav Strashko, Timofei Ermak, Aleksei Shpilman
arXiv:2111.10656 (2021)
Predicción de la estructura de anticuerpos mediante aprendizaje profundo interpretable (DeepAB)
Jeffrey A Ruffolo, Jeremías Sulam, Jeffrey J Gray
Patrones 2021
Predicción rápida y precisa de la estructura de anticuerpos a partir del aprendizaje profundo en un conjunto masivo de anticuerpos naturales (IgFold)
Jeffrey A Ruffolo, Lee-Shin Chu, Sai Pooja Mahajan, Jeffrey J Gray
Comunicaciones de la naturaleza 2023
SAbDab: la base de datos de anticuerpos estructurales (SAbDab)
James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, Charlotte M. Deane
Investigación de ácidos nucleicos 2014
RosettaAntibodyDesign (RAbD): un marco general para el diseño computacional de anticuerpos (RAB)
Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D. Weitzner, Xiaozhen Hu, Yumiko Adachi, William R. Schief, Roland L. Dunbrack, Jr.
PLOS Biología Computacional 2018
SKEMPI 2.0: un punto de referencia actualizado de los cambios en la energía, cinética y termodinámica de unión proteína-proteína tras la mutación (SKEMPI)
Justina Jankauskaite, Brian Jiménez-García, Justas Dapkunas, Juan Fernández-Recio, Iain H Moal
Bioinformática 2019
Prueba in silico del principio del diseño de anticuerpos basado en aprendizaje automático a escala ilimitada
Rahmad Akbara, Philippe A. Roberta, Cédric R. Weberb, Michael Widrichc, Robert Franka, Milena Pavlovićd, Lonneke Schefferd, Maria Chernigovskayaa, Igor Snapkova, Andrei Slabodkina, Brij Bhushan Mehtaa, Enkelejda Mihoe, Fridtjof Lund-Johansena, Jan Terje Andersena, f, sepp Hochreiterc,g, Ingrid Hobæk Haffh, Günter Klambauerc, Geir Kjetil Sandved, Victor Greiff
mAbs 2022https://www.tandfonline.com/doi/full/10.1080/19420862.2022.2031482
Red neuronal de gráfico de refinamiento iterativo para el codiseño de secuencia-estructura de anticuerpos (RefineGNN)
Wengong Jin, Jeremy Wohlwend, Regina Barzilay, Tommi Jaakkola
ICLR 2022
Diseño de anticuerpos condicional como traducción de gráficos equivalentes en 3D (MEDIO)
Xiangzhe Kong, Wenbing Huang, Yang Liu
ICLR 2023
MLP de puerta cruzada con incrustación invariante de complejos proteicos es un diseñador de anticuerpos de una sola vez (ADesigner)
Cheng Tan, Zhangyang Gao, Lirong Wu, Jun Xia, Jiangbin Zheng, Xihong Yang, Yue Liu, Bozhen Hu, Stan Z. Li
AAAI 2024
Diseño y optimización de anticuerpos específicos de antígeno con modelos generativos basados en difusión para estructuras de proteínas (DiffAb)
Shitong Luo, Yufeng Su, Xingang Peng, Sheng Wang, Jian Peng, Jianzhu Ma
NeuroIPS 2022
Aprendizaje profundo para el diseño y acoplamiento de proteínas flexibles y específicos del sitio (DockGPT)
Matt McPartlon, Jinbo Xu
bioRxiv (2023)
Diseño y acoplamiento anticuerpo-antígeno mediante refinamiento equivalente jerárquico (HERN)
Wengong Jin, Dra. Regina Barzilay, Tommi Jaakkola
ICML 2022
Diseño de anticuerpos de átomo completo de extremo a extremo (dyMEAN)
Xiangzhe Kong, Wenbing Huang, Yang Liu
ICML 2023
Un modelo de difusión contrastiva multimodal para la generación de péptidos terapéuticos (MMCD)
Yongkang Wang, Xuan Liu, Feng Huang, Zhankun Xiong, Wen Zhang
AAAI 2024
PepGB: facilitar el descubrimiento de fármacos peptídicos a través de redes neuronales gráficas (PepGB)
Yipin Lei, Xu Wang, Meng Fang, Han Li, Xiang Li, Jianyang Zeng
arXiv:2401.14665 (2024)
PepHarmony: un marco de aprendizaje contrastivo de múltiples vistas para la codificación de péptidos basada en estructuras y secuencias integradas (PepHarmony)
Ruochi Zhang, Haoran Wu, Chang Liu, Huaping Li, Yuqian Wu, Kewei Li, Yifan Wang, Yifan Deng, Jiahui Chen, Fengfeng Zhou, Xin Gao
arXiv:2401.11360 (2024)
PEFT-SP: el ajuste preciso de parámetros en modelos de lenguaje de proteínas grandes mejora la predicción de péptidos de señal (PEFT-SP)
Shuai Zeng, Duolin Wang, Dong Xu
bioRxiv (2023)
AdaNovo: secuenciación adaptativa de péptidos de novo con información mutua condicional (AdaNovo)
Jun Xia, Shaorong Chen, Jingbo Zhou, Tianze Ling, Wenjie Du, Sizhe Liu, Stan Z. Li
arXiv:2403.07013 (2024)