2024/08/11我們很高興地宣布一項新功能“配體能量最小化”,現已在我們的最新版本中提供。此外,探索我們的新工具 druggpt_min_multi.py,專為多個配體的有效能量最小化而設計。
2024/07/30所有濕實驗室驗證均已完成,證實DrugGPT具備配體優化能力。
2024/05/16濕實驗室實驗證實 druggpt 有能力從頭開始設計具有新支架的配體並重新利用現有配體。配體優化仍在評估中。請繼續關注更多更新!
2024/05/16版本升級至druggpt_v1.2,新增原子數控制能力。由於相容性問題,webui 已被刪除。
2024/04/03版本升級至druggpt_v1.1,增強穩定性並加入webui。未來的版本將具有分子中原子數控制的功能。敬請關注。
2024/03/31經過深思熟慮,我計劃建立新的儲存庫,名為druggpt_toolbox和druggpt_train,分別用於儲存後處理工具腳本和訓練腳本。該存儲庫應主要關注候選藥物分子的生成。
2024/03/31我決定為目前版本建立一個名為 druggpt_v1.0 的分支,因為它是一個穩定版本。後續我會繼續更新程式碼。
2024/01/18該計畫目前正在進行實驗評估,以確認其在藥物研究中的實際價值。請繼續關注我們!
DrugGPT 提出了一種基於自回歸模型 GPT 的配體設計策略,專注於化學空間探索和特定蛋白質配體的發現。深度學習語言模型在蛋白質設計、生物醫學文本分析等多個領域展現出巨大潛力,為DrugGPT的主張提供了有力支持。
在本研究中,我們利用 DrugGPT 模型來學習大量的蛋白質-配體結合數據,旨在發現可以與特定蛋白質結合的新型分子。此策略不僅顯著提高了配體設計的效率,也為藥物開發過程提供了快速有效的途徑,為製藥領域帶來了新的可能性
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
或者您只需點擊“代碼”>“下載 ZIP”即可下載此儲存庫。
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
使用 drug_generator.py
所需參數:
-p
| --pro_seq
:輸入蛋白質胺基酸序列。
-f
| --fasta
: 輸入 FASTA 檔。
只能指定 -p 和 -f 之一。
-l
| --ligand_prompt
: 輸入配體提示。
-e
| --empty_input
:啟用直接產生模式。
-n
| --number
:至少會產生多少個分子。
-d
| --device
:要使用的硬體設備。預設為“cuda”。
-o
| --output
:產生分子的輸出目錄。預設為“./ligand_output/”。
-b
| --batch_size
:每批次將產生多少個分子。如果 RAM 較低,請嘗試減少該值。預設值為 16。
-t
| --temperature
:調整文字產生的隨機性;更高的值會產生更多樣化的輸出。預設值為 1.0。
--top_k
:top-k 採樣要考慮的最高機率標記的數量。預設為 9。
--top_p
:top-p(核)採樣的累積機率閾值(0.0 - 1.0)。它定義了隨機採樣時考慮的最小標記子集。預設為 0.9。
--min_atoms
:允許生成的非 H 原子的最小數量。預設為無。
--max_atoms
:允許生成的非 H 原子的最大數量。預設為 35。
--no_limit
:停用預設的最大原子限制。
如果
-l
|使用--ligand_prompt
選項,--max_atoms
和--min_atoms
參數將被忽略。
如果您想輸入蛋白質 FASTA 文件
python drug_generator.py -f bcl2.fasta -n 50
如果你想輸入蛋白質的胺基酸序列
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
如果您想提供配體提示
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
注意:如果您在Linux環境中運行,則需要將配體的提示符號用單引號('')括起來。
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT:基於 GPT 的策略,用於設計針對特定蛋白質的潛在配體
李躍森、高成毅、宋鑫、王翔宇、徐雲剛、韓素霞
生物Rxiv 2023.06.29.543848; doi:https://doi.org/10.1101/2023.06.29.543848
GNU 通用公共授權 v3.0