2024/08/11我们很高兴地宣布一项新功能“配体能量最小化”,现已在我们的最新版本中提供。此外,探索我们的新工具 druggpt_min_multi.py,该工具专为多个配体的有效能量最小化而设计。
2024/07/30所有湿实验室验证均已完成,证实DrugGPT具备配体优化能力。
2024/05/16湿实验室实验证实 druggpt 有能力从头开始设计具有新支架的配体并重新利用现有配体。配体优化仍在评估中。请继续关注更多更新!
2024/05/16版本升级至druggpt_v1.2,新增原子数控制能力。由于兼容性问题,webui 已被删除。
2024/04/03版本升级至druggpt_v1.1,增强稳定性并添加webui。未来的版本将具有分子中原子数控制的功能。敬请关注。
2024/03/31经过深思熟虑,我计划创建新的存储库,名为 druggpt_toolbox 和 druggpt_train 分别用于存储后处理工具脚本和训练脚本。该存储库应主要关注候选药物分子的生成。
2024/03/31我决定为当前版本创建一个名为 druggpt_v1.0 的分支,因为它是一个稳定版本。后续我会继续更新代码。
2024/01/18该项目目前正在进行实验评估,以确认其在药物研究中的实际价值。请继续关注我们!
DrugGPT 提出了一种基于自回归模型 GPT 的配体设计策略,专注于化学空间探索和特定蛋白质配体的发现。深度学习语言模型在蛋白质设计、生物医学文本分析等多个领域展现出巨大潜力,为DrugGPT的主张提供了有力支持。
在本研究中,我们采用 DrugGPT 模型来学习大量的蛋白质-配体结合数据,旨在发现可以与特定蛋白质结合的新型分子。该策略不仅显着提高了配体设计的效率,还为药物开发过程提供了快速有效的途径,为制药领域带来了新的可能性
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
或者您只需单击“代码”>“下载 ZIP”即可下载此存储库。
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
使用 drug_generator.py
所需参数:
-p
| --pro_seq
:输入蛋白质氨基酸序列。
-f
| --fasta
: 输入 FASTA 文件。
只能指定 -p 和 -f 之一。
-l
| --ligand_prompt
: 输入配体提示。
-e
| --empty_input
:启用直接生成模式。
-n
| --number
:至少会生成多少个分子。
-d
| --device
:要使用的硬件设备。默认为“cuda”。
-o
| --output
:生成分子的输出目录。默认为“./ligand_output/”。
-b
| --batch_size
:每批次将生成多少个分子。如果 RAM 较低,请尝试减小该值。默认值为 16。
-t
| --temperature
:调整文本生成的随机性;更高的值会产生更多样化的输出。默认值为 1.0。
--top_k
:top-k 采样要考虑的最高概率标记的数量。默认为 9。
--top_p
:top-p(核)采样的累积概率阈值(0.0 - 1.0)。它定义了随机采样时考虑的最小标记子集。默认为 0.9。
--min_atoms
:允许生成的非 H 原子的最小数量。默认为无。
--max_atoms
:允许生成的非 H 原子的最大数量。默认为 35。
--no_limit
:禁用默认的最大原子限制。
如果
-l
|使用--ligand_prompt
选项,--max_atoms
和--min_atoms
参数将被忽略。
如果您想输入蛋白质 FASTA 文件
python drug_generator.py -f bcl2.fasta -n 50
如果你想输入蛋白质的氨基酸序列
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
如果您想提供配体提示
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
注意:如果您在Linux环境中运行,则需要将配体的提示符用单引号('')括起来。
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT:基于 GPT 的策略,用于设计针对特定蛋白质的潜在配体
李跃森、高成毅、宋鑫、王翔宇、徐云刚、韩素霞
生物Rxiv 2023.06.29.543848; doi:https://doi.org/10.1101/2023.06.29.543848
GNU 通用公共许可证 v3.0