2024/08/11最新リリースで利用できるようになった新機能、リガンド エネルギー最小化を発表できることを嬉しく思います。さらに、複数のリガンドの効率的なエネルギー最小化のために特別に設計された新しいツール、druggpt_min_multi.py を探索してください。
2024/07/30すべてのウェットラボ検証が完了し、DrugGPT がリガンド最適化機能を備えていることが確認されました。
2024/05/16ウェットラボ実験により、druggpt が新しい足場を備えたリガンドをゼロから設計し、既存のリガンドを再利用できることが確認されました。リガンドの最適化はまだ評価中です。今後の最新情報をお楽しみに!
2024/05/16原子番号制御機能を新たに追加し、drugpt_v1.2 にバージョンアップしました。互換性の問題により、webui は削除されました。
2024/04/03 Druggpt_v1.1 にバージョンアップし、安定性の向上と webui の追加を行いました。将来のバージョンでは、分子内の原子番号制御が機能する予定です。乞うご期待。
2024/03/31慎重に検討した結果、後処理ツールのスクリプトとトレーニング スクリプトをそれぞれ保存するために、druggpt_toolbox と drumgpt_train という名前の新しいリポジトリを作成する予定です。このリポジトリは、主に薬剤候補分子の生成に焦点を当てる必要があります。
2024/03/31現在のバージョンは安定リリースなので、druggpt_v1.0 という名前のブランチを作成することにしました。その後もコードを更新していきます。
2024/01/18このプロジェクトは現在、創薬研究における実際の価値を確認するために実験評価中です。ぜひフォローしてください!
DrugGPT は、化学空間の探索と特定のタンパク質のリガンドの発見に焦点を当てた、自己回帰モデル GPT に基づくリガンド設計戦略を提示します。深層学習言語モデルは、タンパク質設計や生物医学テキスト分析などのさまざまな領域で大きな可能性を示しており、DrugGPT の提案を強力にサポートしています。
この研究では、特定のタンパク質と結合できる新しい分子を発見することを目的として、DrugGPT モデルを使用して大量のタンパク質-リガンド結合データを学習します。この戦略は、リガンド設計の効率を大幅に向上させるだけでなく、医薬品開発プロセスに迅速かつ効果的な手段を提供し、製薬分野に新たな可能性をもたらします。
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
または、 「コード」>「ZIP をダウンロード」をクリックして、このリポジトリをダウンロードすることもできます。
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
Drug_generator.py を使用する
必須パラメータ:
-p
| --pro_seq
: タンパク質のアミノ酸配列を入力します。
-f
| --fasta
: FASTA ファイルを入力します。
-p と -f のいずれか 1 つだけを指定する必要があります。
-l
| --ligand_prompt
: リガンドプロンプトを入力します。
-e
| --empty_input
: 直接生成モードを有効にします。
-n
| --number
: 少なくとも何個の分子が生成されるか。
-d
| --device
: 使用するハードウェアデバイス。デフォルトは「cuda」です。
-o
| --output
: 生成された分子の出力ディレクトリ。デフォルトは「./ligand_output/」です。
-b
| --batch_size
: バッチごとに生成される分子の数。 RAM が少ない場合は、この値を減らしてみてください。デフォルトは 16 です。
-t
| --temperature
: テキスト生成のランダム性を調整します。値が大きいほど、より多様な出力が生成されます。デフォルト値は 1.0 です。
--top_k
: トップ k のサンプリングで考慮される最も確率の高いトークンの数。デフォルトは 9 です。
--top_p
: top-p (核) サンプリングの累積確率しきい値 (0.0 ~ 1.0)。これは、ランダム サンプリングで考慮するトークンの最小サブセットを定義します。デフォルトは 0.9 です。
--min_atoms
: 生成に許可される非 H 原子の最小数。デフォルトは「なし」です。
--max_atoms
: 生成可能な非 H 原子の最大数。デフォルトは 35 です。
--no_limit
: デフォルトの最大原子制限を無効にします。
-l
| の場合--ligand_prompt
オプションを使用すると、--max_atoms
および--min_atoms
パラメーターは無視されます。
プロテインFASTAファイルを入力したい場合
python drug_generator.py -f bcl2.fasta -n 50
タンパク質のアミノ酸配列を入力したい場合
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
リガンドのプロンプトを表示したい場合
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
注: Linux 環境で実行している場合は、リガンドのプロンプトを一重引用符 ('') で囲む必要があります。
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT: 特定のタンパク質を標的とする潜在的なリガンドを設計するための GPT ベースの戦略
Yuesen Li、Chengyi Gao、Xin Song、Xiangyu Wang、Yungang Xu、Suxia Han
バイオRxiv 2023.06.29.543848;土井: https://doi.org/10.1101/2023.06.29.543848
GNU 一般公衆利用許諾書 v3.0