更新:我们的论文已被生物信息学简报接受!
调查论文“从头药物发现的生成人工智能调查:分子和蛋白质设计的新前沿”的存储库。
唐相如1 *,Howard Dai 1 *,Elizabeth Knight 1 *,李云阳1 ,吴芳2 ,李天笑1 ,Mark Gerstein 1
1. 耶鲁大学; 2.斯坦福大学
(*: 同等贡献)
[**] 表示附录部分。
部分 | 小节 | 数据集 | 指标 | 型号 |
---|---|---|---|---|
分子 | 与目标无关的生成 | 数据集 | 指标 | 型号 |
分子 | 目标感知一代 | 数据集 | 指标 | 型号 |
分子 | 构象生成** | 数据集 | 指标 | 型号 |
蛋白质 | 表征学习** | 数据集 | 型号 | |
蛋白质 | 结构预测 | 数据集 | 指标 | 型号 |
蛋白质 | 序列生成 | 数据集 | 指标 | 型号 |
蛋白质 | 骨干网设计 | 数据集 | 指标 | 型号 |
抗体 | 表征学习** | 数据集 | 型号 | |
抗体 | 结构预测** | 数据集 | 指标 | 型号 |
抗体 | CDR 生成** | 数据集 | 指标 | 型号 |
肽 | 杂项。任务** | 型号 |
@article{tang2024survey,
title={A survey of generative ai for de novo drug design: new frontiers in molecule and protein generation},
author={Tang, Xiangru and Dai, Howard and Knight, Elizabeth and Wu, Fang and Li, Yunyang and Li, Tianxiao and Gerstein, Mark},
journal={Briefings in Bioinformatics},
volume={25},
number={4},
year={2024},
publisher={Oxford Academic}
}
我们论文所涵盖主题的概述。以蓝色突出显示的部分可以在正文中找到,而紫色部分是附录中的扩展部分。
134 公斤分子的量子化学结构和性质(QM9)
Raghunathan Ramakrishnan、Pavlo O. Dral、Matthias Rupp、O. Anatole von Lilienfeld
科学数据 (2014)
GEOM,用于属性预测和分子生成的能量注释分子构象(GEOM)
西蒙·阿克塞尔罗德、拉斐尔·戈麦斯-邦巴莱利
科学数据 (2022)
使用数据驱动的分子连续表示 (CVAE) 进行自动化学设计
Rafael Gómez-Bombarelli、Jennifer N. Wei、David Duvenaud、JoséMiguel Hernández-Lobato、BenjamínSánchez-Lengeling、Dennis Sheberla、Jorge Aguilera-Iparraguirre、Timothy D. Hirzel、Ryan P. Adams 和 Alán Aspuru-Guzik
美国化学学会中央科学 (2018)
语法变分自动编码器(GVAE)
马特·J·库斯纳、布鲁克斯·佩奇、何塞·米格尔·埃尔南德斯-洛巴托
2017年ICML
用于结构化数据的语法定向变分自动编码器(SD-VAE)
戴涵军、田英涛、戴波、Steven Skiena、宋乐
ICLR 2018
用于分子图生成的连接树变分自动编码器(JT-VAE)
金文功、雷吉娜·巴尔兹莱、托米·贾科拉
2018年ICML
E(n) 等变归一化流(E-NF)
维克多·加西亚·萨托拉斯、埃米尔·胡格博姆、法比安·福克斯、英格玛·波斯纳、马克斯·威灵
神经IPS 2021
用于分子靶向发现的对称性自适应生成 3d 点集(G-SchNet)
尼克拉斯·格鲍尔、迈克尔·加斯特格、克里斯托夫·舒特
2019 年神经信息处理大会
3D 分子生成的等变扩散(EDM)
埃米尔·胡格布姆、维克多·加西亚·萨托拉斯、克莱门特·维尼亚克、马克斯·威灵
ICML 2022
用于 3D 分子生成和优化的几何完全扩散(GCDM)
亚历克斯·莫尔黑德、程建林
arXiv:2302.04313 (2023)
MDM:3D 分子生成的分子扩散模型(MDM)
黄磊、张恒通、徐廷阳、黄家俊
AAAI 2023
用于 3D 分子生成的几何潜在扩散模型(GeoLDM)
徐敏凯、Alexander S Powers、Ron O. Dror、Stefano Ermon、Jure Leskovec
ICML 2023
学习完整分子生成的联合 2D 和 3D 扩散模型(JODO)
黄瀚、孙蕾蕾、杜博文、吕伟峰
arXiv:2305.12347 (2023)
MiDi:用于分子生成的混合图和 3D 去噪扩散(MiDi)
克莱门特·维尼亚克、纳甘·奥斯曼、劳拉·托尼、帕斯卡·弗罗萨德
arXiv:2302.09048 (2023)
三维卷积神经网络和用于基于结构的药物设计的交叉对接数据集(CrossDocked2020)
Paul G. Francoeur、Tomohide Masuda、Jocelyn Sunseri、Andrew Jia、Richard B. Iovanisci、Ian Snyder、David R. Koes
ACS JCIM 2020
ZINC20—用于配体发现的免费超大规模化学数据库(ZINC20)
约翰·J·欧文、Khanh G. Tang、Jennifer Young、Chinzorig Dandarchuluun、Benjamin R. Wong、Munkhzul Khurelbaatar、Yurii S. Moroz、John Mayfield、Roger A. Sayle
ACS JCIM 2020
绑定 MOAD(所有数据库之母) (Binding MOAD)
Liegi Hu、Mark L. Benson、Richard D. Smith、Michael G. Lerner、Heather A. Carlson
蛋白质 2005
AutoDock Vina:通过新的评分功能、高效优化和多线程提高对接速度和准确性(Vina AutoDock)
奥列格·特洛特、阿瑟·J·奥尔森
2010年JCC
量化药物的化学美(QED) G Richard Bickerton、Gaia V Paolini、Jérémy Besnard、Sorel Muresan、Andrew L Hopkins
自然化学(2012)
基于分子复杂性和片段贡献估计类药分子的合成可及性得分(SAScore)
Peter Ertl,Ansgar Schuffenhauer 化学信息学杂志 2009
DrugGPT:基于 GPT 的策略,用于设计针对特定蛋白质的潜在配体(DrugGPT)
李跃森、高成毅、宋鑫、王翔宇、徐云刚、韩素霞
生物Rxiv (2023)
使用深度生成模型 (LiGAN) 生成以受体结合位点为条件的 3D 分子结构
增田智秀、马修·拉戈扎、大卫·瑞安·科斯
arXiv:2010.14442 (2020)
Pocket2Mol:基于 3D 蛋白质口袋的高效分子采样(Pocket2Mol)
彭新刚、罗诗彤、关佳琪、谢琪、彭剑、马建柱
ICML 2022
基于结构的药物设计的 3D 生成模型
罗诗彤、关嘉琪、马建柱、彭剑
神经IPS 2021
用于目标感知分子生成和亲和力预测的 3D 等变扩散(TargetDiff)
关嘉琪、钱伟、彭新刚、苏宇峰、彭剑、马建柱
ICLR 2023
具有等变扩散模型的基于结构的药物设计(DiffSBDD)
阿恩·施纽因、杜元奇、查尔斯·哈里斯、阿里安·贾马斯、伊利亚·伊加绍夫、杜伟涛、汤姆·布伦德尔、彼得罗·廖、卡拉·戈麦斯、马克斯·威灵、迈克尔·布朗斯坦、布鲁诺·科雷亚
arXiv:2210.13695 (2022)
GEOM,用于属性预测和分子生成的能量注释分子构象(GEOM)
西蒙·阿克塞尔罗德、拉斐尔·戈麦斯-邦巴莱利
2022 年科学数据
SchNet:用于模拟量子相互作用的连续滤波器卷积神经网络(ISO17)
克里斯托夫·舒特、彼得-扬·金德曼斯、胡齐尔·伊诺克·索达·菲利克斯、斯特凡·奇米拉、亚历山大·特卡琴科、克劳斯-罗伯特·穆勒
2017 年神经信息处理大会
使用深度生成图神经网络 (CVGAE) 进行分子几何预测
埃尔曼·曼西莫夫、奥马尔·马哈茂德、Seokho Kang、Kyunghyun Cho
2019 年科学报告
分子距离几何生成模型(GraphDG)
格雷戈尔·NC·西姆、何塞·米格尔·埃尔南德斯-洛巴托
ICML 2020
学习分子构象生成的神经生成动力学(CGCF)
徐敏凯、罗诗彤、Yoshua Bengio、彭健、唐健
ICLR 2021
GeoMol:分子 3D 适形体系综的扭转几何生成(GeoMol)
奥克塔维安·加内亚、拉格纳吉特·帕塔奈克、康纳·科利、雷吉娜·巴兹莱、克拉夫斯·詹森、威廉姆·格林、托米·贾科拉
神经IPS 2021
学习分子构象生成的梯度场(ConfGF)
石成策、罗世同、徐敏凯、唐健
ICML 2021
通过动态图得分匹配 (DGSM) 预测分子构象
罗世同、石成策、徐敏凯、唐健
神经IPS 2021
GeoDiff:分子构象生成的几何扩散模型(GeoDiff)
徐敏凯、余兰涛、宋杨、石成策、Stefano Ermon、唐健
ICLR 2022
UniProt:通用蛋白质知识库(UniProt)
Rolf Apweiler、Amos Bairoch、Cathy H. Wu、Winona C. Barker、Brigitte Boeckmann、Serenella Ferro、Elisabeth Gasteiger、黄宏展、Rodrigo Lopez、Michele Magrane、Maria J. Martin、Darren A. Natale、Claire O'Donovan、Nicole叶丽素·雷达斯基
核酸研究 2004
OntoProtein:利用基因本体嵌入进行蛋白质预训练(ProteinKG)
张宁宇、毕臻、梁小专、程思源、洪浩森、邓淑敏、连家章、张强、陈华军
ICLR 2022
蛋白质数据库(PDB)
海伦·M·伯曼、约翰·威斯布鲁克、冯祖康、加里·吉利兰、TN·巴特、赫尔格·韦西格、伊利亚·N·辛迪亚洛夫、菲利普·E·伯恩
核酸研究 2000
AlphaFold蛋白质结构数据库:通过高精度模型大规模扩展蛋白质序列空间的结构覆盖范围(AlphaFoldDB)
米哈伊·瓦拉迪 / 史蒂芬·安尼扬戈 / 曼达尔·德什潘德 / 斯里纳斯·奈尔 / 辛迪·娜塔莎 / 加拉比娜·约尔达诺娃 / 大卫·袁 / 奥安娜·斯特罗 / 杰玛·伍德 / 阿加塔·雷登 / 奥古斯丁·日德克 / 蒂姆·格林 / 凯瑟琳·图尼亚苏瓦纳库尔 / 斯蒂格·彼得森 / 约翰·詹珀 / 艾伦·克兰西 / 理查德·格林安库尔·沃拉、米拉·鲁特菲、迈克尔·菲格诺夫、安德鲁考伊、妮可·霍布斯、普什米特·科利、杰拉德·克莱维格特、伊万·伯尼、杰米斯·哈萨比斯、萨米尔·维兰卡
核酸研究 2022
Pfam:2021 年蛋白质家族数据库(Pfam)
吉安娜·米斯特里、萨拉·丘古兰斯基、洛瑞·威廉姆斯、马特鲁布·库雷希、古斯塔沃·萨拉查、埃里克·LL·桑哈默、西尔维奥·CE·托萨托、丽莎娜·帕拉丁、施里亚·拉杰、洛娜·J·理查森、罗伯特·D·芬恩、亚历克斯·贝特曼
核酸研究 2021
具有基于序列的深度表示学习的统一理性蛋白质工程(UniRep)
Ethan C. Alley、Grigory Khimulya、Surojit Biswas、Mohammed AlQuraishi、George M. Church
2019年自然方法
Prottrans:通过自我监督学习理解生命的语言(ProtBERT)
Ahmed Elnaggar、Michael Heinzinger、Christian Dallago、Ghalia Rehawi、王宇、Llion Jones、Tom Gibbs、Tamas Feher、Christoph Angerer、Martin Steinegger、Debsindhu Bhowmik 和 Burkhard Rost
IEEE PAMI 2021
将无监督学习扩展到 2.5 亿个蛋白质序列 (ESM-1b),产生生物结构和功能
亚历山大·里夫斯、约书亚·梅尔、汤姆·塞尔库、悉达斯·戈亚尔、林泽明、刘杰生、郭黛米、迈尔·奥特、C·劳伦斯·齐特尼克、马杰瑞、罗布·弗格斯
美国国家科学院院刊 2021
MSA变压器(MSA变压器)
Roshan M Rao、Jason Liu、Robert Verkuil、Joshua Meier、John Canny、Pieter Abbeel、Tom Sercu、Alexander Rives
ICML 2021
用于蛋白质表示学习 (RSA) 的检索序列增强
马畅、赵海腾、郑林、辛佳一、李勤童、吴丽君、邓志宏、路阳、刘奇、孔令鹏
生物Rxiv (2023)
OntoProtein:利用基因本体嵌入进行蛋白质预训练(OntoProtein)
张宁宇、毕臻、梁小专、程思源、洪浩森、邓淑敏、连家章、张强、陈华军
ICLR 2022
通过知识增强一级结构建模 (KeAP) 进行蛋白质表示学习
周宏宇、付云翔、张志成、卞成、于一洲
生物Rxiv (2023)
用于 3D 蛋白质结构学习的内在-外在卷积和池化(IEConv)
佩德罗·埃莫西拉、马可·谢弗、马特耶·朗、格洛丽亚·法克尔曼、佩雷·保·巴斯克斯、巴博拉·科兹利科娃、迈克尔·克朗、托比亚斯·里切尔、蒂莫·罗平斯基
ICLR 2021
使用图卷积网络进行基于结构的蛋白质功能预测(DeepFRI)
Vladimir Gligorijević、P. Douglas Renfrew、Tomasz Kosciolek、Julia Koehler Leman、Daniel Berenberg、Tommi Vatanen、Chris Chandler、Bryn C. Taylor、Ian M. Fisk、Hera Vlamakis、Ramnik J. Xavier、Rob Knight、Kyunghyun Cho、Richard Bonneau
自然通讯 2021
通过几何结构预训练进行蛋白质表示学习(GearNET)
张作柏、徐明浩、Arian Jamasb、Vijil Chenthamarakshan、Aurelie Lozano、Payel Das、唐健
arXiv:2203.06125 (2022)
蛋白质数据库(PDB)
海伦·M·伯曼、约翰·威斯布鲁克、冯祖康、加里·吉利兰、TN·巴特、赫尔格·韦西格、伊利亚·N·辛迪亚洛夫、菲利普·E·伯恩
核酸研究 2000
蛋白质结构预测 (CASP) 方法的严格评估——第 XIV 轮(CASP14)
安德烈·克里斯塔福维奇、托斯顿·施韦德、玛雅·托普夫、克日什托夫·菲德利斯、约翰·摩尔特
蛋白质 2021
连续自动模型评估 (CAMEO) 补充了 CASP12 (CAMEO) 中结构预测的关键评估
尤尔根·哈斯、亚历桑德罗·巴巴托、达里奥·贝林格、加布里埃尔·斯图德、史蒂文·罗斯、马蒂诺·贝尔托尼、哈立德·莫斯塔吉尔、拉法尔·古米尼、托斯顿·施韦德
蛋白质 2017
LGA:一种寻找蛋白质结构 3D 相似性的方法(GDT-TS)
亚当·泽姆拉
核酸 2003
自动评估蛋白质结构模板质量的评分功能(TM-score)
张阳,杰弗里·斯科尔尼克
蛋白质 2004
lDDT:使用距离差异测试 (lDDT) 比较蛋白质结构和模型的局部无叠加评分
瓦莱里奥·马里亚尼、马可·比亚西尼、亚历山德罗·巴尔巴托、托斯顿·施韦德
生物信息学2013
使用 AlphaFold (AlphaFold) 进行高度准确的蛋白质结构预测
约翰·詹珀、理查德·埃文斯、亚历山大·普利策尔、蒂姆·格林、迈克尔·菲格诺夫、奥拉夫·罗尼伯格、凯瑟琳·图尼亚苏瓦纳库尔、拉斯·贝茨、奥古斯丁·日德克、安娜·波塔彭科、亚历克斯·布里奇兰、克莱门斯·迈耶、西蒙·AA·科尔、安德鲁·J·巴拉德、安德鲁·考伊、贝尔纳迪诺·罗梅拉-帕雷德斯、斯坦尼斯拉夫·尼科洛夫、里舒布·贾恩、乔纳斯阿德勒、特雷弗·巴克、斯蒂格·彼得森、大卫·雷曼、艾伦·克兰西、米哈尔·泽林斯基、马丁·斯坦尼格、米查琳娜·帕霍尔斯卡、塔马斯·伯格哈默、塞巴斯蒂安·博登斯坦、大卫·西尔弗、奥里奥尔·维尼亚尔斯、安德鲁·W·西尼尔、科雷·卡武克库奥格鲁、普什梅特·科利、杰米斯·哈萨比斯
自然2021)
用于快速准确预测蛋白质结构的 trRosetta 服务器(trRosetta)
杜宗阳, 苏红, 王文凯, 叶丽莎, 魏红, 彭振玲, Ivan Anishchenko, David Baker, 杨建一 自然协议 2021
使用三轨神经网络 (RoseTTAFold) 准确预测蛋白质结构和相互作用
Minkyung Baek、Frank DiMaio、Ivan Anishchenko、Justas Dauparas、Sergey Ovchinnikov、Gyu Rie Lee、Jue Wang、Qian Cong、Lisa N. Kinch、R. Dustin Schaeffer、Claudia Millán、Hahnbeom Park、Carson Adams、Caleb R. Glassman、Andy德乔瓦尼、何塞·H·佩雷拉、安德里亚·V·罗德里格斯、阿尔伯迪娜·A. van Dijk、Ana C. Ebrecht、Diederik J. Opperman、Theo Sagmeister、Christoph Buhlheller、Tea Pavkov-Keller、Manoj K. Rathinaswamy、Udit Dalwadi、Calvin K. Yip、John E. Burke、K. Christopher Garcia、Nick V.格里辛、保罗·D·亚当斯、兰迪·J·里德、大卫·贝克
科学 2021
使用语言模型(ESMFold)对原子级蛋白质结构进行进化规模预测
林泽明、Halil Akin、Roshan Rao、Brian Hie、朱中凯、卢文婷、Nikita Smetanin、Robert Verkuil、Ori Kabeli、Yaniv Shmueli、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Salvatore Candido、Alexander Rives
科学2023
EigenFold:利用扩散模型进行生成蛋白质结构预测(EigenFold)
井博文、埃兹拉·埃里维斯、黄彼得、加布里埃尔·科尔索、邦妮·伯杰、汤米·贾科拉
arXiv:2304.02198 (2023)
蛋白质数据库(PDB)
海伦·M·伯曼、约翰·威斯布鲁克、冯祖康、加里·吉利兰、TN·巴特、赫尔格·韦西格、伊利亚·N·辛迪亚洛夫、菲利普·E·伯恩
核酸研究 2000
UniProt:通用蛋白质知识库(UniRef/UniParc)
Rolf Apweiler、Amos Bairoch、Cathy H. Wu、Winona C. Barker、Brigitte Boeckmann、Serenella Ferro、Elisabeth Gasteiger、黄宏展、Rodrigo Lopez、Michele Magrane、Maria J. Martin、Darren A. Natale、Claire O'Donovan、Nicole叶丽素·雷达斯基
核酸研究 2004
CATH:基因组序列的全面结构和功能注释(CATH)
伊恩·西利托、托尼·E·刘易斯、艾莉森·卡夫、萨奥尼·达斯、保罗·阿什福德、娜塔莉·L·道森、尼古拉斯·弗纳姆、罗曼·拉斯科夫斯基、大卫·李、乔纳森·G·利斯、索尼娅·莱蒂宁、罗曼·A·斯图德、珍妮特·桑顿、克里斯汀A·奥伦戈
核酸研究 2015
通过具有基于片段的局部和基于能量的非局部特征的神经网络直接预测与蛋白质结构兼容的序列特征(TS500)
李志秀、杨跃东、Eshel Faraggi、詹建、周耀奇
蛋白质 2014
ProteinVAE:用于翻译蛋白质设计的变分自动编码器(ProteinVAE)
吕苏月、沙辛·索拉提-哈什金、迈克尔·加顿
生物Rxiv (2023)
ProT-VAE:用于功能蛋白设计的 Protein Transformer 变分自动编码器(ProT-VAE)
埃姆雷·塞夫根、约书亚·莫勒、阿德里安·兰格、约翰·帕克、肖恩·奎格利、杰夫·梅尔、普纳姆·斯里瓦斯塔瓦、西塔拉姆·加亚特里、大卫·霍斯菲尔德、玛丽亚·科舒诺娃、米夏·利夫内、米歇尔·吉尔、拉玛·兰加纳坦、安东尼·B·科斯塔、安德鲁·L·弗格森
生物Rxiv (2023)
使用生成对抗网络 (ProteinGAN) 扩展功能性蛋白质序列空间
Donatas Repecka、Vykintas Jauniskis、Laurynas Karpus、Elzbieta Rembeza、Irmantas Rokaitis、Jan Zrimec、Simona Poviloniene、Audrius Laurynenas、Sandra Viknander、Wissam Abuajwa、Otto Savolainen、Rolandas Meskys、Martin KM Engqvist、Aleksej Zelezniak
自然机器智能(2021)
使用深度图神经网络进行快速灵活的蛋白质设计(ProteinSolver)
Alexey Strokach、David Becerra、Carles Corbi-Verge、Albert Perez-Riba、Philip M. Kim
细胞系统 2020
PiFold:迈向有效且高效的蛋白质反向折叠(PiFold)
高张阳、谭成、李斯坦
ICLR 2023
具有学习潜力的蛋白质序列设计
Namrata Anand、Raphael Eguchi、Irimpan I. Mathews、Carla P. Perez、Alexander Derry、Russ B. Altman、Po-Ssu Huang
自然通讯 2022
基于深度学习和自我一致性的无旋转异构体蛋白质序列设计(ABACUS-R)
刘玉峰、张璐、王伟伦、朱敏、王晨晨、李福东、张家海、李厚强、陈泉、刘海燕
自然计算科学2022
ProRefiner:一种基于熵的精炼策略,用于具有全局图注意力的反向蛋白质折叠(ProRefiner)
周欣怡、陈光勇、叶俊杰、王二成、张军、毛丛、李占伟、郝建业、黄星旭、唐金、恒鹏安
自然通讯2023
Graphormer 监督的从头蛋白质设计方法和功能验证(GPD)
穆俊熙、李正新、张博、张琪、贾姆希德·伊克巴尔、阿卜杜勒·瓦杜德、魏婷、冯岩、陈海峰
2024 年生物信息学简报
使用几何向量感知器学习蛋白质结构(GVP-GNN)
景博文、斯蒂芬·艾斯曼、帕特里夏·苏丽安娜、拉斐尔·约翰·拉马尔·汤森德、罗恩·德罗尔
ICLR 2021
从数百万个预测结构中学习逆折叠(ESM-IF1)
Chloe Hsu, 罗伯特·维库尔, 刘杰森, 林泽明, Brian Hie, 汤姆·塞尔库, Adam Lerer, 亚历山大·里弗斯
ICML 2022
使用 ProteinMPNN (ProteinMPNN) 进行基于稳健深度学习的蛋白质序列设计
J Dauparas、I Anishchenko、N Bennett、H Bai、RJ Ragotte、LF Milles、BIM Wicky、A Courbet、RJ de Haas、N Bethel、PJY Leung、TF Huddy、S Pellock、D Tischer、F Chan、B Koepnick、H Nguyen、A Kang、B Sankaran、AK Bera、NP King、D Baker
科学 2022
蛋白质数据库(PDB)
海伦·M·伯曼、约翰·威斯布鲁克、冯祖康、加里·吉利兰、TN·巴特、赫尔格·韦西格、伊利亚·N·辛迪亚洛夫、菲利普·E·伯恩
核酸研究 2000
AlphaFold蛋白质结构数据库:通过高精度模型大规模扩展蛋白质序列空间的结构覆盖范围(AlphaFoldDB)
米哈伊·瓦拉迪 / 史蒂芬·安尼扬戈 / 曼达尔·德什潘德 / 斯里纳斯·奈尔 / 辛迪·娜塔莎 / 加拉比娜·约尔达诺娃 / 大卫·袁 / 奥安娜·斯特罗 / 杰玛·伍德 / 阿加塔·雷登 / 奥古斯丁·日德克 / 蒂姆·格林 / 凯瑟琳·图尼亚苏瓦纳库尔 / 斯蒂格·彼得森 / 约翰·詹珀 / 艾伦·克兰西 / 理查德·格林安库尔·沃拉、米拉·鲁特菲、迈克尔·菲格诺夫、安德鲁考伊、妮可·霍布斯、普什米特·科利、杰拉德·克莱维格特、伊万·伯尼、杰米斯·哈萨比斯、萨米尔·维兰卡
核酸研究 2022
SCOP:用于研究序列和结构的蛋白质结构分类数据库(SCOP)
阿列克谢·G·穆尔津、史蒂文·E·布伦纳、蒂姆·哈伯德、赛勒斯·乔蒂亚 JMB 1995
SCOPe:蛋白质结构分类的改进——扩展数据库以促进变异解释和机器学习(SCOPe)
John-Marc Chandonia、Lindseyguan、Shiangyi Lin、Changhua Yu、Naomi K Fox、Steven E Brenner 核酸研究 2022
CATH:基因组序列的全面结构和功能注释(CATH)
伊恩·西利托、托尼·E·刘易斯、艾莉森·卡夫、萨奥尼·达斯、保罗·阿什福德、娜塔莉·L·道森、尼古拉斯·弗纳姆、罗曼·拉斯科夫斯基、大卫·李、乔纳森·G·利斯、索尼娅·莱蒂宁、罗曼·A·斯图德、珍妮特·桑顿、克里斯汀A·奥伦戈
核酸研究 2015
针对基序支架问题的 3D 蛋白质骨架扩散概率建模(ProtDiff)
布莱恩·特里普 / 杰森·米 / 道格·蒂舍尔 / 大卫·贝克 / 塔玛拉·布罗德里克 / 雷吉娜·巴兹莱 / 托米·贾科拉
ICLR 2023
通过折叠扩散生成蛋白质结构(FoldingDiff)
Kevin E. Wu、Kevin K. Yang、Rianne van den Berg、Sarah Alamdari、James Y. Zou、Alex X. Lu、Ava P. Amini
自然通讯 2024
蛋白质结构生成的潜在扩散模型(LatentDiff)
付聪、严克强、王丽梅、欧永仪、Michael McThrow、小美门陶、丸桥浩司、内野宽二、钱晓宁、季水旺
日志 2023
通过等变扩散定向残基云生成新颖、可设计且多样化的蛋白质结构(Genie)
林叶青、穆罕默德·库莱什
arXiv:2301.12485 (2023)
SE(3) 扩散模型应用于蛋白质骨架生成(FrameDiff)
Jason Yim、Brian L. Trippe、Valentin De Bortoli、Emile Mathieu、Arnaud Doucet、Regina Barzilay、Tommi Jaakkola
ICML 2023
使用 RFdiffusion 进行蛋白质结构和功能的从头设计(RFDiffusion)
约瑟夫·L·沃森、大卫·于尔根斯、纳撒尼尔·R·贝内特、布莱恩·L·特里普、杰森·伊姆、海伦·E·艾森纳赫、伍迪·埃亨、安德鲁·J·博斯特、罗伯特·J·拉戈特、卢卡斯·F·米尔斯、巴塞尔·IM·威基、尼基塔·哈尼克尔, 塞缪尔·J·佩洛克, 亚历克西斯·库尔贝, 威廉·谢夫勒, 王珏, Preetham Venkatesh, 艾萨克·萨平顿,苏珊娜·巴斯克斯·托雷斯、安娜·劳科、瓦伦丁·德博尔托利、埃米尔·马蒂厄、谢尔盖·奥夫钦尼科夫、雷吉娜·巴齐莱、汤米·S·雅科拉、弗兰克·迪马约、白敏京、大卫·贝克
自然 2023
蛋白质语言模型监督的精确高效蛋白质主链设计方法(GPDL)
张波、刘可欣、郑卓奇、刘云飞扬、穆俊熙、魏婷、陈海峰
生物Rxiv (2023)
基于基序的蛋白质序列和结构联合设计(GeoPro)
宋振桥、赵云龙、宋宇飞、史文贤、杨洋、李雷
arXiv:2310.02546 (2023)
全原子蛋白质生成模型(Protpardelle)
Alexander E. Chu、Lucy Cheng、Gina El Nesr、Minkai Xu、Po-Ssu Huang
生物Rxiv (2023)
具有等变翻译的蛋白质序列和结构协同设计(ProtSeed)
石成策、王传瑞、路嘉瑞、钟波子涛、唐健
ICLR 2023
用于药物发现的抗体表示学习(BERTTransformer)
林莉、埃丝特·古普塔、约翰·斯佩思、盛国荣、特里斯坦·贝普勒、拉杰蒙达·苏洛·卡塞雷斯
arXiv:2210.02881 (2022)
使用语言模型和弱监督学习破译抗体亲和力成熟(AntiBERTy)
杰弗里·A·鲁弗洛、杰弗里·J·格雷、杰里米亚斯·苏拉姆
arXiv:2112.07782 (2021)
使用自我监督学习破译抗体的语言(AntiBERTa)
Jinwoo Leem、劳拉·S·米切尔、詹姆斯·HR·法默里、贾斯汀·巴顿、雅各布·D·加尔森
2022 年图案
AbLang:用于完成抗体序列的抗体语言模型(AbLang)
托比亚斯·H·奥尔森、伊恩·H·莫尔、夏洛特·M·迪恩
2022 年生物信息学进展
使用合理的抗体方法 (PARA) 进行预训练
高祥瑞、曹长岭、赖立鹏
生物Rxiv (2023)
SAbDab:结构抗体数据库(SAbDab)
詹姆斯·邓巴、康拉德·克劳奇克、Jinwoo Leem、特里·贝克、安吉丽卡·福克斯、盖伊·乔治、史吉野、夏洛特·M·迪恩
核酸研究 2014
RosettaAntibodyDesign (RAbD):计算抗体设计 (RAB) 的通用框架
Jared Adolf-Bryfogle、Oleks Kalyuzhniy、Michael Kubitz、Brian D. Weitzner、Xiaozhen Hu、Yumiko Adachi、William R. Schief、Roland L. Dunbrack, Jr.
PLOS 计算生物学 2018
tFold-Ab:快速准确的抗体结构预测,无需序列同源物(tFold-Ab)
吴家祥、吴凡迪、蒋标斌、刘伟、赵培林
生物Rxiv (2022)
xTrimoABFold:无需 MSA 的从头抗体结构预测(xTrimoABFold)
王一宁、龚旭猛、李少川、杨冰、孙义武、史传、王彦刚、程阳、李慧、宋乐
arXiv:2212.00735 (2022)
ImmuneBuilder:用于预测免疫蛋白结构的深度学习模型(ABodyBuilder)
布伦南·阿巴纳德斯、黄永基、弗格斯·博伊斯、盖伊·乔治、亚历山大·布约泽克、夏洛特·M·迪恩
自然 2023
ABlooper:快速准确的抗体 CDR 环结构预测和准确度估计(ABlooper)
布伦南·阿巴纳德斯、盖伊·乔治、亚历山大·布约泽克、夏洛特·M·迪恩
生物信息学 2022
深度学习的几何势改进了 CDR H3 循环结构的预测(DeepH3)
杰弗里·A·鲁弗洛、卡洛斯·格拉、Sai Pooja Mahajan、杰里米亚斯·苏拉姆、杰弗里·J·格雷
生物信息学2020
用于 CDR-H3 循环结构预测的简单端到端深度学习模型(SimpleDH3)
娜塔莉亚·赞科娃、叶卡捷琳娜·塞德赫、塔蒂亚娜·舒加耶娃、弗拉迪斯拉夫·斯特拉什科、蒂莫费·埃尔马克、阿列克谢·施皮尔曼
arXiv:2111.10656 (2021)
使用可解释深度学习 (DeepAB) 预测抗体结构
杰弗里·A·鲁弗洛、杰里米亚斯·苏拉姆、杰弗里·J·格雷
2021 年图案
通过深度学习对大量天然抗体 (IgFold) 进行快速、准确的抗体结构预测
杰弗里·A·鲁弗洛、李新朱、Sai Pooja Mahajan、杰弗里·J·格雷
自然通讯2023
SAbDab:结构抗体数据库(SAbDab)
詹姆斯·邓巴、康拉德·克劳奇克、Jinwoo Leem、特里·贝克、安吉丽卡·福克斯、盖伊·乔治、史吉野、夏洛特·M·迪恩
核酸研究 2014
RosettaAntibodyDesign (RAbD):计算抗体设计 (RAB) 的通用框架
Jared Adolf-Bryfogle、Oleks Kalyuzhniy、Michael Kubitz、Brian D. Weitzner、Xiaozhen Hu、Yumiko Adachi、William R. Schief、Roland L. Dunbrack, Jr.
PLOS 计算生物学 2018
SKEMPI 2.0:突变时蛋白质-蛋白质结合能、动力学和热力学变化的更新基准(SKEMPI)
贾斯蒂娜·扬考斯凯特、布莱恩·希门尼斯-加西亚、贾斯塔斯·达普库纳斯、胡安·费尔南德斯-雷西奥、伊恩·H·莫阿尔
生物信息学2019
基于机器学习的无限制规模抗体设计原理的计算机证明
Rahmad Akbara、Philippe A. Roberta、Cédric R. Weberb、Michael Widrichc、Robert Franka、Milena Pavlovićd、Lonneke Schefferd、Maria Chernigovskayaa、Igor Snapkova、Andrei Slabodkina、Brij Bhushan Mehtaa、Enkelejda Mihoe、Fridtjof Lund-Johansena、Jan Terje Andersena,f, Sepp Hochreiterc,g, Ingrid Hobæk Haffh, Günter Klambauerc, Geir Kjetil Sandved, Victor Greiff
单克隆抗体2022https://www.tandfonline.com/doi/full/10.1080/19420862.2022.2031482
用于抗体序列-结构协同设计的迭代细化图神经网络(RefineGNN)
金文功、杰里米·沃尔文德、雷吉娜·巴齐莱、托米·雅科拉
ICLR 2022
作为 3D 等变图转换 (MEAN) 的条件抗体设计
孔祥哲、黄文兵、刘洋
ICLR 2023
具有蛋白质复合物不变嵌入的跨门 MLP 是一次性抗体设计器(ADesigner)
谭成、高张阳、吴立荣、夏军、郑江滨、杨喜红、刘悦、胡伯振、李斯坦
AAAI 2024
使用基于扩散的蛋白质结构生成模型 (DiffAb) 进行抗原特异性抗体设计和优化
罗世同、苏玉峰、彭新刚、王胜、彭建、马建柱
神经IPS 2022
用于灵活且特定位点的蛋白质对接和设计的深度学习(DockGPT)
马特·麦克帕特隆、徐金波
生物Rxiv (2023)
通过分层等变细化 (HERN) 进行抗体-抗原对接和设计
金文公、Regina Barzilay 博士、Tommi Jaakkola
ICML 2022
端到端全原子抗体设计(dyMEAN)
孔祥哲、黄文兵、刘洋
ICML 2023
用于治疗性肽生成的多模态对比扩散模型(MMCD)
王永康、刘轩、黄峰、熊占坤、张文
AAAI 2024
PepGB:通过图神经网络促进肽药物发现(PepGB)
雷一品、王旭、方孟、李韩、李翔、曾建阳
arXiv:2401.14665 (2024)
PepHharmony:用于集成序列和基于结构的肽编码的多视图对比学习框架(PepHarmony)
张若池、吴浩然、刘昶、李华平、吴雨倩、李可伟、王一凡、邓一凡、陈家辉、周峰峰、高鑫
arXiv:2401.11360 (2024)
PEFT-SP:大型蛋白质语言模型的参数高效微调可改善信号肽预测(PEFT-SP)
曾帅、王多林、徐东
生物Rxiv (2023)
AdaNovo:具有条件互信息的自适应从头肽测序(AdaNovo)
夏军、陈少荣、周静波、凌天泽、杜文杰、刘思哲、李斯坦
arXiv:2403.07013 (2024)