Atualização: nosso artigo foi aceito para Briefings em Bioinformática!
Repositório para o artigo de pesquisa "A Survey of Generative AI for de novo Drug Discovery: New Frontiers in Molecule and Protein Design".
Xiangru Tang 1 *, Howard Dai 1 *, Elizabeth Knight 1 *, Yunyang Li 1 , Fang Wu 2 , Tianxiao Li 1* , Mark Gerstein 1
1. Universidade de Yale; 2. Universidade de Stanford
(*: Contribuição Igualitária)
[**] denota seções do apêndice.
Seção | Subseção | Conjuntos de dados | Métricas | Modelos |
---|---|---|---|---|
Molécula | Geração Agnóstica de Alvo | Conjuntos de dados | Métricas | Modelos |
Molécula | Geração consciente do alvo | Conjuntos de dados | Métricas | Modelos |
Molécula | Geração de Conformação** | Conjuntos de dados | Métricas | Modelos |
Proteína | Aprendizagem de Representação** | Conjuntos de dados | Modelos | |
Proteína | Previsão de Estrutura | Conjuntos de dados | Métricas | Modelos |
Proteína | Geração de Sequência | Conjuntos de dados | Métricas | Modelos |
Proteína | Projeto de espinha dorsal | Conjuntos de dados | Métricas | Modelos |
Anticorpo | Aprendizagem de Representação** | Conjuntos de dados | Modelos | |
Anticorpo | Previsão de Estrutura** | Conjuntos de dados | Métricas | Modelos |
Anticorpo | Geração de CDR** | Conjuntos de dados | Métricas | Modelos |
Peptídeo | Diversos. Tarefas** | Modelos |
@article{tang2024survey,
title={A survey of generative ai for de novo drug design: new frontiers in molecule and protein generation},
author={Tang, Xiangru and Dai, Howard and Knight, Elizabeth and Wu, Fang and Li, Yunyang and Li, Tianxiao and Gerstein, Mark},
journal={Briefings in Bioinformatics},
volume={25},
number={4},
year={2024},
publisher={Oxford Academic}
}
Uma visão geral dos tópicos abordados em nosso artigo. As seções destacadas em azul podem ser encontradas no texto principal, enquanto as seções roxas são seções estendidas encontradas no apêndice.
Estruturas e propriedades da química quântica de moléculas de 134 quilos (QM9)
Raghunathan Ramakrishnan, Pavlo O. Dral, Matthias Rupp, O. Anatole von Lilienfeld
Dados Científicos (2014)
GEOM, conformações moleculares anotadas em energia para previsão de propriedades e geração molecular (GEOM)
Simon Axelrod, Rafael Gómez-Bombarelli
Dados Científicos (2022)
Projeto químico automático usando uma representação contínua de moléculas baseada em dados (CVAE)
Rafael Gómez-Bombarelli, Jennifer N. Wei, David Duvenaud, JoséMiguel Hernández-Lobato, BenjamínSánchez-Lengeling, Dennis Sheberla, Jorge Aguilera-Iparraguirre, Timothy D. Hirzel, Ryan P. Adams e Alán Aspuru-Guzik
Ciência Central ACS (2018)
Autoencodificador Variacional Gramatical (GVAE)
Matt J. Kusner, Brooks Paige, José Miguel Hernández-Lobato
ICML 2017
Autoencodificador variacional direcionado por sintaxe para dados estruturados (SD-VAE)
Hanjun Dai, Yingtao Tian, Bo Dai, Steven Skiena, Le Song
ICLR 2018
Autoencodificador Variacional de Árvore de Junção para Geração de Gráfico Molecular (JT-VAE)
Wengong Jin, Regina Barzilay, Tommi Jaakkola
ICML 2018
E(n) Fluxos de normalização equivalente (E-NF)
Victor Garcia Satorras, Emiel Hoogeboom, Fabian Fuchs, Ingmar Posner, Max Welling
NeuroIPS 2021
Geração adaptada à simetria de conjuntos de pontos 3D para a descoberta direcionada de moléculas (G-SchNet)
Niklas Gebauer, Michael Gastegger, Kristof Schütt
NeuroIPS 2019
Difusão Equivariante para Geração de Moléculas em 3D (EDM)
Emiel Hoogeboom, Victor Garcia Satorras, Clément Vignac, Max Welling
ICML 2022
Difusão Geométrica Completa para Geração e Otimização de Moléculas 3D (GCDM)
Alex Morehead, Jianlin Cheng
arXiv:2302.04313 (2023)
MDM: Modelo de Difusão Molecular para Geração de Moléculas 3D (MDM)
Lei Huang, Hengtong Zhang, Tingyang Xu, Ka-Chun Wong
AAAI 2023
Modelos geométricos de difusão latente para geração de moléculas 3D (GeoLDM)
Minkai Xu, Alexander S Powers, Ron O. Dror, Stefano Ermon, Jure Leskovec
ICML 2023
Aprendendo modelos conjuntos de difusão 2D e 3D para geração completa de moléculas (JODO)
Han Huang, Leilei Sun, Bowen Du, Weifeng Lv
arXiv:2305.12347 (2023)
MiDi: gráfico misto e difusão de eliminação de ruído 3D para geração de moléculas (MiDi)
Clement Vignac, Nagham Osman, Laura Toni, Pascal Frossard
arXiv:2302.09048 (2023)
Redes Neurais Convolucionais Tridimensionais e um Conjunto de Dados Cross-Docked para Projeto de Medicamentos Baseado em Estrutura (CrossDocked2020)
Paul G. Francoeur, Tomohide Masuda, Jocelyn Sunseri, Andrew Jia, Richard B. Iovanisci, Ian Snyder, David R. Koes
ACS JCIM 2020
ZINC20 — Um banco de dados químico gratuito em escala ultralarga para descoberta de ligantes (ZINC20)
John J. Irwin, Khanh G. Tang, Jennifer Young, Chinzorig Dandarchuluun, Benjamin R. Wong, Munkhzul Khurelbaatar, Yurii S. Moroz, John Mayfield, Roger A. Sayle
ACS JCIM 2020
Vinculação MOAD (Mãe de todos os bancos de dados) (Vinculação MOAD)
Liegi Hu, Mark L. Benson, Richard D. Smith, Michael G. Lerner, Heather A. Carlson
Proteínas 2005
AutoDock Vina: Melhorando a velocidade e a precisão do acoplamento com uma nova função de pontuação, otimização eficiente e multithreading (Vina AutoDock)
Oleg Trott, Arthur J. Olson
CCJ 2010
Quantificando a beleza química das drogas (QED) G Richard Bickerton, Gaia V Paolini, Jérémy Besnard, Sorel Muresan, Andrew L Hopkins
Química da Natureza (2012)
Estimativa da pontuação de acessibilidade sintética de moléculas semelhantes a medicamentos com base na complexidade molecular e contribuições de fragmentos (SAScore)
Peter Ertl, Ansgar Schuffenhauer Journal of Cheminformatics 2009
DrugGPT: uma estratégia baseada em GPT para projetar ligantes potenciais direcionados a proteínas específicas (DrugGPT)
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv (2023)
Geração de estruturas moleculares 3D condicionais a um sítio de ligação de receptor com modelos gerativos profundos (LiGAN)
Tomohide Masuda, Matthew Ragoza, David Ryan Koes
arXiv:2010.14442 (2020)
Pocket2Mol: Amostragem Molecular Eficiente Baseada em Bolsos de Proteínas 3D (Pocket2Mol)
Xingang Peng, Shitong Luo, Jiaqi Guan, Qi Xie, Jian Peng, Jianzhu Ma
ICML 2022
Um modelo generativo 3D para projeto de medicamentos baseado em estrutura
Shitong Luo, Jiaqi Guan, Jianzhu Ma, Jian Peng
NeuroIPS 2021
Difusão equivalente 3D para geração de moléculas com reconhecimento de alvo e previsão de afinidade (TargetDiff)
Jiaqi Guan, Wesley Wei Qian, Xingang Peng, Yufeng Su, Jian Peng, Jianzhu Ma
ICLR 2023
Projeto de Medicamentos Baseado em Estrutura com Modelos de Difusão Equivariante (DiffSBDD)
Arne Schneuing, Yuanqi Du, Charles Harris, Arian Jamasb, Ilia Igashov, Weitao Du, Tom Blundell, Pietro Lió, Carla Gomes, Max Welling, Michael Bronstein, Bruno Correia
arXiv:2210.13695 (2022)
GEOM, conformações moleculares anotadas em energia para previsão de propriedades e geração molecular (GEOM)
Simon Axelrod, Rafael Gómez-Bombarelli
Dados Científicos 2022
SchNet: Uma rede neural convolucional de filtro contínuo para modelar interações quânticas (ISO17)
Kristof Schütt, Pieter-Jan Kindermans, Huziel Enoc Sauceda Felix, Stefan Chmiela, Alexandre Tkatchenko, Klaus-Robert Müller
NeuroIPS 2017
Predição de geometria molecular usando uma rede neural de gráfico generativo profundo (CVGAE)
Elman Mansimov, Omar Mahmood, Seokho Kang, Kyunghyun Cho
Relatórios Científicos 2019
Um modelo generativo para geometria de distância molecular (GraphDG)
Gregor NC Simm, José Miguel Hernández-Lobato
ICML 2020
Aprendendo Dinâmica Gerativa Neural para Geração de Conformação Molecular (CGCF)
Minkai Xu, Shitong Luo, Yoshua Bengio, Jian Peng, Jian Tang
ICLR 2021
GeoMol: Geração geométrica torcional de conjuntos moleculares de conformadores 3D (GeoMol)
Octavian Ganea, Lagnajit Pattanaik, Connor Coley, Regina Barzilay, Klavs Jensen, William Green, Tommi Jaakkola
NeuroIPS 2021
Campos de gradiente de aprendizagem para geração de conformação molecular (ConfGF)
Chence Shi, Shitong Luo, Minkai Xu, Jian Tang
ICML 2021
Predição da conformação molecular por meio da correspondência dinâmica de pontuação gráfica (DGSM)
Shitong Luo, Chence Shi, Minkai Xu, Jian Tang
NeuroIPS 2021
GeoDiff: Um modelo de difusão geométrica para geração de conformação molecular (GeoDiff)
Minkai Xu, Lantao Yu, Yang Song, Chence Shi, Stefano Ermon, Jian Tang
ICLR 2022
UniProt: a base de conhecimento Universal Protein (UniProt)
Rolf Apweiler, Amos Bairoch, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Serenella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J. Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Sim
Pesquisa de Ácidos Nucleicos 2004
OntoProtein: pré-treinamento de proteínas com incorporação de ontologia genética (ProteinKG)
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
ICLR 2022
O Banco de Dados de Proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Pesquisa de Ácidos Nucleicos 2000
Banco de dados de estrutura de proteínas AlphaFold: expandindo massivamente a cobertura estrutural do espaço de sequência de proteínas com modelos de alta precisão (AlphaFoldDB)
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green , Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar
Pesquisa de ácidos nucléicos 2022
Pfam: O banco de dados de famílias de proteínas em 2021 (Pfam)
Jaina Mistry, Sara Chuguransky, Lowri Williams, Matloob Qureshi, Gustavo A Salazar, Erik LL Sonnhammer, Silvio CE Tosatto, Lisanna Paladin, Shriya Raj, Lorna J Richardson, Robert D Finn, Alex Bateman
Pesquisa de ácidos nucléicos 2021
Engenharia racional unificada de proteínas com aprendizagem de representação profunda baseada em sequência (UniRep)
Ethan C. Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, George M. Church
Métodos da Natureza 2019
Prottrans: Para compreender a linguagem da vida por meio da aprendizagem autossupervisionada (ProtBERT)
Ahmed Elnaggar, Michael Heinzinger, Christian Dallago, Ghalia Rehawi, Yu Wang, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Martin Steinegger, Debsindhu Bhowmik e Burkhard Rost
IEEE PAMI 2021
A estrutura e a função biológica emergem do dimensionamento da aprendizagem não supervisionada para 250 milhões de sequências de proteínas (ESM-1b)
Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, Rob Fergus
PNAS 2021
Transformador MSA (Transformador MSA)
Roshan M Rao, Jason Liu, Robert Verkuil, Joshua Meier, John Canny, Pieter Abbeel, Tom Sercu, Alexander Rives
ICML 2021
Aumento de sequência recuperada para aprendizagem de representação de proteínas (RSA)
Chang Ma, Haiteng Zhao, Lin Zheng, Jiayi Xin, Qintong Li, Lijun Wu, Zhihong Deng, Yang Lu, Qi Liu, Lingpeng Kong
bioRxiv (2023)
OntoProtein: Pré-treinamento de proteínas com incorporação de ontologia genética (OntoProtein)
Ningyu Zhang, Zhen Bi, Xiaozhuan Liang, Siyuan Cheng, Haosen Hong, Shumin Deng, Jiazhang Lian, Qiang Zhang, Huajun Chen
ICLR 2022
Aprendizagem de representação de proteínas por meio de modelagem de estrutura primária aprimorada por conhecimento (KeAP)
Hong-Yu Zhou, Yunxiang Fu, Zhicheng Zhang, Cheng Bian, Yizhou Yu
bioRxiv (2023)
Convolução e agrupamento intrínseco-extrínseco para aprendizagem em estruturas de proteínas 3D (IEConv)
Pedro Hermosilla, Marco Schäfer, Matěj Lang, Gloria Fackelmann, Pere Pau Vázquez, Barbora Kozlíková, Michael Krone, Tobias Ritschel, Timo Ropinski
ICLR 2021
Predição da função proteica baseada em estrutura usando redes convolucionais gráficas (DeepFRI)
Vladimir Gligorijević, P. Douglas Renfrew, Tomasz Kosciolek, Julia Koehler Leman, Daniel Berenberg, Tommi Vatanen, Chris Chandler, Bryn C. Taylor, Ian M. Fisk, Hera Vlamakis, Ramnik J. Xavier, Rob Knight, Kyunghyun Cho, Richard Bonneau
Comunicações da Natureza 2021
Aprendizagem de representação de proteínas por pré-treinamento de estrutura geométrica (GearNET)
Zuobai Zhang, Minghao Xu, Arian Jamasb, Vijil Chenthamarakshan, Aurelie Lozano, Payel Das, Jian Tang
arXiv:2203.06125 (2022)
O Banco de Dados de Proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Pesquisa de Ácidos Nucleicos 2000
Avaliação crítica de métodos de predição de estrutura proteica (CASP) - Rodada XIV (CASP14)
Andriy Kryshtafovych, Torsten Schwede, Maya Topf, Krzysztof Fidelis, John Moult
Proteínas 2021
Avaliação Contínua de Modelo Automatizado (CAMEO) complementando a avaliação crítica da previsão de estrutura em CASP12 (CAMEO)
Jürgen Haas, Alessandro Barbato, Dario Behringer, Gabriel Studer, Steven Roth, Martino Bertoni, Khaled Mostaguir, Rafal Gumienny, Torsten Schwede
Proteínas 2017
LGA: um método para encontrar semelhanças 3D em estruturas de proteínas (GDT-TS)
Adam Zemla
Ácidos Nucleicos 2003
Função de pontuação para avaliação automatizada da qualidade do modelo de estrutura de proteína (pontuação TM)
Yang Zhang, Jeffrey Skolnick
Proteínas 2004
lDDT: uma pontuação livre de superposição local para comparar estruturas e modelos de proteínas usando testes de diferença de distância (lDDT)
Valerio Mariani, Marco Biasini, Alessandro Barbato, Torsten Schwede
Bioinformática 2013
Previsão de estrutura de proteína altamente precisa com AlphaFold (AlphaFold)
John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon AA Kohl, Andrew J. Ballard, Andrew Cowie, Bernardino Romera -Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W. Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis
Natureza 2021)
O servidor trRosetta para previsão rápida e precisa da estrutura de proteínas (trRosetta)
Zongyang Du, Hong Su, Wenkai Wang, Lisha Ye, Hong Wei, Zhenling Peng, Ivan Anishchenko, David Baker, Jianyi Yang Nature Protocols 2021
Previsão precisa de estruturas e interações proteicas usando uma rede neural de três trilhas (RoseTTAFold)
Minkyung Baek, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, Gyu Rie Lee, Jue Wang, Qian Cong, Lisa N. Kinch, R. Dustin Schaeffer, Claudia Millán, Hahnbeom Park, Carson Adams, Caleb R. Glassman, Andy DeGiovanni, José H. Pereira, Andria V. Rodrigues, Alberdina A. van Dijk, Ana C. Ebrecht, Diederik J. Opperman, Theo Sagmeister, Christoph Buhlheller, Tea Pavkov-Keller, Manoj K. Rathinaswamy, Udit Dalwadi, Calvin K. Yip, John E. Burke, K. Christopher Garcia, Nick V. Grishin, Paul D. Adams , Randy J. Leia, David Baker
Ciência 2021
Predição em escala evolutiva da estrutura de proteínas em nível atômico com um modelo de linguagem (ESMFold)
Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Nikita Smetanin, Robert Verkuil, Ori Kabeli, Yaniv Shmueli, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Salvatore Candido, Alexander Rives
Ciência 2023
EigenFold: Predição generativa de estrutura de proteínas com modelos de difusão (EigenFold)
Bowen Jing, Ezra Erives, Peter Pao-Huang, Gabriele Corso, Bonnie Berger, Tommi Jaakkola
arXiv:2304.02198 (2023)
O Banco de Dados de Proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Pesquisa de Ácidos Nucleicos 2000
UniProt: a base de conhecimento Universal Protein (UniRef/UniParc)
Rolf Apweiler, Amos Bairoch, Cathy H. Wu, Winona C. Barker, Brigitte Boeckmann, Serenella Ferro, Elisabeth Gasteiger, Hongzhan Huang, Rodrigo Lopez, Michele Magrane, Maria J. Martin, Darren A. Natale, Claire O'Donovan, Nicole Redaschi, Lai-Su L. Sim
Pesquisa de Ácidos Nucleicos 2004
CATH: anotações estruturais e funcionais abrangentes para sequências genômicas (CATH)
Ian Sillitoe, Tony E. Lewis, Alison Cuff, Sayoni Das, Paul Ashford, Natalie L. Dawson, Nicholas Furnham, Roman A. Laskowski, David Lee, Jonathan G. Lees, Sonja Lehtinen, Romain A. Studer, Janet Thornton, Christine A. Orengo
Pesquisa de Ácidos Nucleicos 2015
Predição direta de perfis de sequências compatíveis com uma estrutura proteica por redes neurais com perfis locais baseados em fragmentos e não locais baseados em energia (TS500)
Zhixiu Li, Yuedong Yang, Eshel Faraggi, Jian Zhan e Yaoqi Zhou
Proteínas 2014
ProteinVAE: AutoEncoder Variacional para Design de Proteína Translacional (ProteinVAE)
Suyue Lyu, Shahin Sowlati-Hashjin, Michael Garton
bioRxiv (2023)
ProT-VAE: AutoEncoder Variacional de Transformador de Proteína para Design Funcional de Proteína (ProT-VAE)
Emre Sevgen, Joshua Moller, Adrian Lange, John Parker, Sean Quigley, Jeff Mayer, Poonam Srivastava, Sitaram Gayatri, David Hosfield, Maria Korshunova, Micha Livne, Michelle Gill, Rama Ranganathan, Anthony B. Costa, Andrew L. Ferguson
bioRxiv (2023)
Expandindo espaços funcionais de sequências de proteínas usando redes adversárias generativas (ProteinGAN)
Donatas Repecka, Vykintas Jauniskis, Laurynas Karpus, Elzbieta Rembeza, Irmantas Rokaitis, Jan Zrimec, Simona Poviloniene, Audrius Laurynenas, Sandra Viknander, Wissam Abuajwa, Otto Savolainen, Rolandas Meskys, Martin KM Engqvist, Aleksej Zelezniak
Inteligência da Máquina da Natureza (2021)
Projeto de proteínas rápido e flexível usando redes neurais de gráficos profundos (ProteinSolver)
Alexey Strokach, David Becerra, Carles Corbi-Verge, Albert Perez-Riba, Philip M. Kim
Sistemas Celulares 2020
PiFold: Rumo ao dobramento inverso de proteínas eficaz e eficiente (PiFold)
Zhangyang Gao, Cheng Tan, Stan Z. Li
ICLR 2023
Projeto de sequência de proteínas com potencial aprendido
Namrata Anand, Raphael Eguchi, Irimpan I. Mathews, Carla P. Perez, Alexander Derry, Russ B. Altman, Po-Ssu Huang
Comunicações da Natureza 2022
Projeto de sequência de proteínas sem rotamer baseado em aprendizado profundo e autoconsistência (ABACUS-R)
Yufeng Liu, Lu Zhang, Weilun Wang, Min Zhu, Chenchen Wang, Fudong Li, Jiahai Zhang, Houqiang Li, Quan Chen, Haiyan Liu
Ciência Computacional da Natureza 2022
ProRefiner: uma estratégia de refinamento baseada em entropia para dobramento inverso de proteínas com atenção gráfica global (ProRefiner)
Xinyi Zhou, Guangyong Chen, Junjie Ye, Ercheng Wang, Jun Zhang, Cong Mao, Zhanwei Li, Jianye Hao, Xingxu Huang, Jin Tang, Pheng Ann Heng
Comunicações da Natureza 2023
Método de design de proteína de novo supervisionado pelo Graformer e validação de função (GPD)
Junxi Mu, Zhengxin Li, Bo Zhang, Qi Zhang, Jamshed Iqbal, Abdul Wadood, Ting Wei, Yan Feng, Hai-Feng Chen
Briefings em Bioinformática 2024
Aprendendo com a estrutura das proteínas com perceptrons vetoriais geométricos (GVP-GNN)
Bowen Jing, Stephan Eismann, Patricia Suriana, Raphael John Lamarre Townshend, Ron Dror
ICLR 2021
Aprendendo dobramento inverso de milhões de estruturas previstas (ESM-IF1)
Chloe Hsu, Robert Verkuil, Jason Liu, Zeming Lin, Brian Hie, Tom Sercu, Adam Lerer, Alexander Rives
ICML 2022
Projeto robusto de sequência de proteínas baseado em aprendizado profundo usando ProteinMPNN (ProteinMPNN)
J Dauparas, I Anishchenko, N Bennett, H Bai, RJ Ragotte, LF Milles, BIM Wicky, A Courbet, RJ de Haas, N Bethel, PJY Leung, TF Huddy, S Pellock, D Tischer, F Chan, B Koepnick, H Nguyen, A Kang, B Sankaran, AK Bera, NP King, D Baker
Ciência 2022
O Banco de Dados de Proteínas (PDB)
Helen M. Berman, John Westbrook, Zukang Feng, Gary Gilliland, TN Bhat, Helge Weissig, Ilya N. Shindyalov, Philip E. Bourne
Pesquisa de Ácidos Nucleicos 2000
Banco de dados de estrutura de proteínas AlphaFold: expandindo massivamente a cobertura estrutural do espaço de sequência de proteínas com modelos de alta precisão (AlphaFoldDB)
Mihaly Varadi, Stephen Anyango, Mandar Deshpande, Sreenath Nair, Cindy Natassia, Galabina Yordanova, David Yuan, Oana Stroe, Gemma Wood, Agata Laydon, Augustin Žídek, Tim Green, Kathryn Tunyasuvunakool, Stig Petersen, John Jumper, Ellen Clancy, Richard Green , Ankur Vora, Mira Lutfi, Michael Figurnov, Andrew Cowie, Nicole Hobbs, Pushmeet Kohli, Gerard Kleywegt, Ewan Birney, Demis Hassabis, Sameer Velankar
Pesquisa de ácidos nucléicos 2022
SCOP: Uma classificação estrutural de banco de dados de proteínas para a investigação de sequências e estruturas (SCOP)
Alexey G. Murzin, Steven E. Brenner, Tim Hubbard, Cyrus Chothia JMB 1995
SCOPe: melhorias na classificação estrutural de proteínas – banco de dados estendido para facilitar a interpretação de variantes e aprendizado de máquina (SCOPe)
John-Marc Chandonia, Lindsey Guan, Shiangyi Lin, Changhua Yu, Naomi K Fox, Steven E Brenner Pesquisa de ácidos nucléicos 2022
CATH: anotações estruturais e funcionais abrangentes para sequências genômicas (CATH)
Ian Sillitoe, Tony E. Lewis, Alison Cuff, Sayoni Das, Paul Ashford, Natalie L. Dawson, Nicholas Furnham, Roman A. Laskowski, David Lee, Jonathan G. Lees, Sonja Lehtinen, Romain A. Studer, Janet Thornton, Christine A. Orengo
Pesquisa de Ácidos Nucleicos 2015
Modelagem probabilística de difusão de backbones de proteínas em 3D para o problema de andaimes de motivos (ProtDiff)
Brian L. Trippe, Jason Yim, Doug Tischer, David Baker, Tamara Broderick, Regina Barzilay, Tommi Jaakkola
ICLR 2023
Geração de estrutura proteica via difusão dobrável (FoldingDiff)
Kevin E. Wu, Kevin K. Yang, Rianne van den Berg, Sarah Alamdari, James Y. Zou, Alex X. Lu, Ava P. Amini
Comunicações da Natureza 2024
Um modelo de difusão latente para geração de estrutura proteica (LatentDiff)
Cong Fu, Keqiang Yan, Limei Wang, Wing Yee Au, Michael McThrow, Tao Komikado, Koji Maruhashi, Kanji Uchino, Xiaoning Qian, Shuiwang Ji
LoG 2023
Gerando estruturas de proteínas novas, projetáveis e diversas por meio da difusão equivalente de nuvens de resíduos orientadas (Genie)
Yeqing Lin, Mohammed AlQuraishi
arXiv:2301.12485 (2023)
Modelo de difusão SE(3) com aplicação à geração de backbone de proteínas (FrameDiff)
Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay, Tommi Jaakkola
ICML 2023
Projeto de novo da estrutura e função da proteína com RFdiffusion (RFDiffusion)
Joseph L. Watson, David Juergens, Nathaniel R. Bennett, Brian L. Trippe, Jason Yim, Helen E. Eisenach, Woody Ahern, Andrew J. Borst, Robert J. Ragotte, Lukas F. Milles, Basile IM Wicky, Nikita Hanikel , Samuel J. Pellock, Alexis Courbet, William Sheffler, Jue Wang, Preetham Venkatesh, Isaac Sappington, Susana Vázquez Torres, Anna Lauko, Valentin De Bortoli, Emile Mathieu, Sergey Ovchinnikov, Regina Barzilay, Tommi S. Jaakkola, Frank DiMaio, Minkyung Baek, David Baker
Natureza 2023
Modelo de linguagem de proteína supervisionado, método de design de backbone de proteína preciso e eficiente (GPDL)
Bo Zhang, Kexin Liu, Zhuoqi Zheng, Yunfeiyang Liu, Junxi Mu, Ting Wei, Hai-Feng Chen
bioRxiv (2023)
Projeto Conjunto de Sequência e Estrutura de Proteínas Baseado em Motivos (GeoPro)
Canção Zhenqiao, Yunlong Zhao, Canção Yufei, Wenxian Shi, Yang Yang, Lei Li
arXiv:2310.02546 (2023)
Um modelo gerador de proteína com todos os átomos (Protpardelle)
Alexander E. Chu, Lucy Cheng, Gina El Nesr, Minkai Xu, Po-Ssu Huang
bioRxiv (2023)
Co-projeto de sequência e estrutura de proteínas com tradução equivalente (ProtSeed)
Chence Shi, Chuanrui Wang, Jiarui Lu, Bozitao Zhong, Jian Tang
ICLR 2023
Aprendizagem de representação de anticorpos para descoberta de medicamentos (BERTTransformer)
Lin Li, Esther Gupta, John Spaeth, Leslie Shing, Tristan Bepler, Rajmonda Sulo Cáceres
arXiv:2210.02881 (2022)
Decifrando a maturação da afinidade de anticorpos com modelos de linguagem e aprendizagem fracamente supervisionada (AntiBERTy)
Jeffrey A. Ruffolo, Jeffrey J. Gray, Jeremias Sulam
arXiv:2112.07782 (2021)
Decifrando a linguagem dos anticorpos usando aprendizagem autosupervisionada (AntiBERTa)
Jinwoo Leem, Laura S. Mitchell, James HR Farmery, Justin Barton, Jacob D. Galson
Padrões 2022
AbLang: um modelo de linguagem de anticorpos para completar sequências de anticorpos (AbLang)
Tobias H Olsen, Iain H Moal, Charlotte M Deane
Avanços em Bioinformática 2022
Pré-treinamento com uma abordagem racional para anticorpos (PARA)
Xiangrui Gao, Changling Cao, Lipeng Lai
bioRxiv (2023)
SAbDab: o banco de dados de anticorpos estruturais (SAbDab)
James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, Charlotte M. Deane
Pesquisa de Ácidos Nucleicos 2014
RosettaAntibodyDesign (RAbD): Uma estrutura geral para design computacional de anticorpos (RAB)
Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D. Weitzner, Xiaozhen Hu, Yumiko Adachi, William R. Schief, Roland L. Dunbrack, Jr.
Biologia Computacional PLOS 2018
tFold-Ab: previsão rápida e precisa da estrutura do anticorpo sem homólogos de sequência (tFold-Ab)
Jiaxiang Wu, Fandi Wu, Biaobin Jiang, Wei Liu, Peilin Zhao
bioRxiv (2022)
xTrimoABFold: Predição de novo da estrutura de anticorpos sem MSA (xTrimoABFold)
Yining Wang, Xumeng Gong, Shaochuan Li, Bing Yang, YiWu Sun, Chuan Shi, Yangang Wang, Cheng Yang, Hui Li, Le Song
arXiv:2212.00735 (2022)
ImmuneBuilder: modelos de aprendizagem profunda para prever as estruturas de proteínas imunológicas (ABodyBuilder)
Brennan Abanades, Wing Ki Wong, Fergus Boyles, Guy Georges, Alexander Bujotzek, Charlotte M. Deane
Natureza 2023
ABlooper: previsão rápida e precisa da estrutura do loop CDR de anticorpo com estimativa de precisão (ABlooper)
Brennan Abanades, Guy Georges, Alexander Bujotzek, Charlotte M Deane
Bioinformática 2022
Potenciais geométricos de aprendizagem profunda melhoram a previsão de estruturas de loop CDR H3 (DeepH3)
Jeffrey A Ruffolo, Carlos Guerra, Sai Pooja Mahajan, Jeremias Sulam, Jeffrey J Gray
Bioinformática 2020
Modelo simples de aprendizado profundo de ponta a ponta para previsão de estrutura de loop CDR-H3 (SimpleDH3)
Natalia Zenkova, Ekaterina Sedykh, Tatiana Shugaeva, Vladislav Strashko, Timofei Ermak, Aleksei Shpilman
arXiv:2111.10656 (2021)
Predição da estrutura de anticorpos usando aprendizado profundo interpretável (DeepAB)
Jeffrey A Ruffolo, Jeremias Sulam, Jeffrey J Gray
Padrões 2021
Previsão rápida e precisa da estrutura de anticorpos a partir de aprendizagem profunda em um conjunto massivo de anticorpos naturais (IgFold)
Jeffrey A Ruffolo, Lee-Shin Chu, Sai Pooja Mahajan, Jeffrey J Gray
Comunicações da Natureza 2023
SAbDab: o banco de dados de anticorpos estruturais (SAbDab)
James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, Charlotte M. Deane
Pesquisa de Ácidos Nucleicos 2014
RosettaAntibodyDesign (RAbD): Uma estrutura geral para design computacional de anticorpos (RAB)
Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D. Weitzner, Xiaozhen Hu, Yumiko Adachi, William R. Schief, Roland L. Dunbrack, Jr.
Biologia Computacional PLOS 2018
SKEMPI 2.0: um benchmark atualizado de mudanças na energia de ligação proteína-proteína, cinética e termodinâmica após mutação (SKEMPI)
Justina Jankauskaite, Brian Jiménez-García, Justas Dapkunas, Juan Fernández-Recio, Iain H Moal
Bioinformática 2019
Prova in silico do princípio do design de anticorpos baseado em aprendizado de máquina em escala irrestrita
Rahmad Akbara, Philippe A. Roberta, Cédric R. Weberb, Michael Widrichc, Robert Franka, Milena Pavlovićd, Lonneke Schefferd, Maria Chernigovskayaa, Igor Snapkova, Andrei Slabodkina, Brij Bhushan Mehtaa, Enkelejda Mihoe, Fridtjof Lund-Johansena, Jan Terje Andersena, f, Sepp Hochreiterc,g, Ingrid Hobæk Haffh, Günter Klambauerc, Geir Kjetil Sandved, Victor Greiff
mAbs 2022https://www.tandfonline.com/doi/full/10.1080/19420862.2022.2031482
Rede Neural de Gráfico de Refinamento Iterativo para Co-design de Sequência-Estrutura de Anticorpos (RefineGNN)
Wengong Jin, Jeremy Wohlwend, Regina Barzilay, Tommi Jaakkola
ICLR 2022
Projeto Condicional de Anticorpos como Tradução de Gráfico Equivariante 3D (MEAN)
Xiangzhe Kong, Wenbing Huang, Yang Liu
ICLR 2023
Cross-Gate MLP com incorporação invariante de complexo de proteínas é um designer de anticorpo único (ADesigner)
Cheng Tan, Zhangyang Gao, Lirong Wu, Jun Xia, Jiangbin Zheng, Xihong Yang, Yue Liu, Bozhen Hu, Stan Z. Li
AAAI 2024
Projeto e otimização de anticorpos específicos para antígenos com modelos generativos baseados em difusão para estruturas de proteínas (DiffAb)
Shitong Luo, Yufeng Su, Xingang Peng, Sheng Wang, Jian Peng, Jianzhu Ma
NeuroIPS 2022
Aprendizado profundo para acoplamento e design de proteínas flexíveis e específicos do local (DockGPT)
Matt McPartlon e Jinbo Xu
bioRxiv (2023)
Ancoragem e Design Anticorpo-Antígeno via Refinamento Equivariante Hierárquico (HERN)
Wengong Jin, Dra. Regina Barzilay, Tommi Jaakkola
ICML 2022
Projeto de anticorpo de átomo completo de ponta a ponta (dyMEAN)
Xiangzhe Kong, Wenbing Huang, Yang Liu
ICML 2023
Um modelo de difusão contrastiva multimodal para geração de peptídeos terapêuticos (MMCD)
Yongkang Wang, Xuan Liu, Feng Huang, Zhankun Xiong, Wen Zhang
AAAI 2024
PepGB: Facilitando a descoberta de medicamentos peptídicos por meio de redes neurais gráficas (PepGB)
Yipin Lei, Xu Wang, Meng Fang, Han Li, Xiang Li, Jianyang Zeng
arXiv:2401.14665 (2024)
PepHarmony: uma estrutura de aprendizagem contrastiva multivisualização para sequência integrada e codificação de peptídeos baseada em estrutura (PepHarmony)
Ruochi Zhang, Haoran Wu, Chang Liu, Huaping Li, Yuqian Wu, Kewei Li, Yifan Wang, Yifan Deng, Jiahui Chen, Fengfeng Zhou, Xin Gao
arXiv:2401.11360 (2024)
PEFT-SP: Ajuste fino com eficiência de parâmetros em modelos de linguagem de proteínas grandes melhora a previsão de peptídeos de sinal (PEFT-SP)
Shuai Zeng, Duolin Wang, Dong Xu
bioRxiv (2023)
AdaNovo: Sequenciamento adaptativo de peptídeos De Novo com informações mútuas condicionais (AdaNovo)
Jun Xia, Shaorong Chen, Jingbo Zhou, Tianze Ling, Wenjie Du, Sizhe Liu, Stan Z. Li
arXiv:2403.07013 (2024)