2024/08/11 Nous sommes ravis d'annoncer une nouvelle fonctionnalité, Ligand Energy Minimization, désormais disponible dans notre dernière version. De plus, explorez notre nouvel outil, druggpt_min_multi.py, conçu spécifiquement pour une minimisation efficace de l'énergie de plusieurs ligands.
30/07/2024 Toutes les validations en laboratoire humide ont été complétées, confirmant que DrugGPT possède des capacités d'optimisation de ligand.
16/05/2024 Les expériences en laboratoire humide confirment la capacité de druggpt à concevoir des ligands avec de nouveaux échafaudages à partir de zéro et à réutiliser les ligands existants. L'optimisation des ligands reste en cours d'évaluation. Restez à l'écoute pour plus de mises à jour !
2024/05/16 La version a été mise à niveau vers druggpt_v1.2, offrant de nouvelles capacités de contrôle du nombre d'atomes. En raison de problèmes de compatibilité, le webui a été supprimé.
03/04/2024 Version mise à niveau vers druggpt_v1.1, améliorant la stabilité et ajoutant un webui. Les futures versions comporteront un contrôle du nombre d’atomes dans les molécules. Restez à l'écoute.
31/03/2024 Après mûre réflexion, je prévois de créer de nouveaux référentiels nommés druggpt_toolbox et druggpt_train pour stocker respectivement les scripts d'outils de post-traitement et les scripts de formation. Ce référentiel devrait se concentrer principalement sur la génération de molécules candidates médicamenteuses.
31/03/2024 J'ai décidé de créer une branche nommée druggpt_v1.0 pour la version actuelle puisqu'il s'agit d'une version stable. Par la suite, je continuerai à mettre à jour le code.
2024/01/18 Ce projet est actuellement en cours d'évaluation expérimentale pour confirmer sa valeur réelle dans la recherche sur les médicaments. Merci de continuer à nous suivre !
DrugGPT présente une stratégie de conception de ligands basée sur le modèle autorégressif GPT, axée sur l'exploration chimique de l'espace et la découverte de ligands pour des protéines spécifiques. Les modèles linguistiques d'apprentissage profond ont montré un potentiel important dans divers domaines, notamment la conception de protéines et l'analyse de textes biomédicaux, apportant ainsi un soutien solide à la proposition de DrugGPT.
Dans cette étude, nous utilisons le modèle DrugGPT pour apprendre une quantité substantielle de données de liaison protéine-ligand, dans le but de découvrir de nouvelles molécules capables de se lier à des protéines spécifiques. Cette stratégie améliore non seulement considérablement l'efficacité de la conception des ligands, mais offre également une voie rapide et efficace pour le processus de développement de médicaments, ouvrant ainsi de nouvelles possibilités au domaine pharmaceutique.
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
Ou vous pouvez simplement cliquer sur Code> Télécharger ZIP pour télécharger ce dépôt.
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
Utilisez drug_generator.py
Paramètres requis :
-p
| --pro_seq
: saisissez une séquence d'acides aminés protéiques.
-f
| --fasta
: Saisissez un fichier FASTA.
Un seul parmi -p et -f doit être spécifié.
-l
| --ligand_prompt
: saisissez une invite de ligand.
-e
| --empty_input
: Activer le mode de génération directe.
-n
| --number
: Au moins combien de molécules seront générées.
-d
| --device
: Périphérique matériel à utiliser. La valeur par défaut est « cuda ».
-o
| --output
: Répertoire de sortie des molécules générées. La valeur par défaut est './ligand_output/'.
-b
| --batch_size
: Combien de molécules seront générées par lot. Essayez de réduire cette valeur si votre RAM est faible. La valeur par défaut est 16.
-t
| --temperature
: Ajuste le caractère aléatoire de la génération de texte ; des valeurs plus élevées produisent des résultats plus diversifiés. La valeur par défaut est 1,0.
--top_k
: Le nombre de jetons de probabilité la plus élevée à prendre en compte pour l'échantillonnage top-k. La valeur par défaut est 9.
--top_p
: Le seuil de probabilité cumulé (0,0 - 1,0) pour l'échantillonnage top-p (noyau). Il définit le sous-ensemble minimum de jetons à prendre en compte pour un échantillonnage aléatoire. La valeur par défaut est 0,9.
--min_atoms
: nombre minimum d'atomes non-H autorisés pour la génération. La valeur par défaut est Aucun.
--max_atoms
: Nombre maximum d'atomes non-H autorisés pour la génération. La valeur par défaut est 35.
--no_limit
: Désactive la limite maximale d'atomes par défaut.
Si le
-l
|--ligand_prompt
est utilisée, les paramètres--max_atoms
et--min_atoms
seront ignorés.
Si vous souhaitez saisir un fichier FASTA protéique
python drug_generator.py -f bcl2.fasta -n 50
Si vous souhaitez saisir la séquence d'acides aminés de la protéine
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
Si vous souhaitez fournir une invite pour le ligand
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
Remarque : Si vous exécutez dans un environnement Linux, vous devez placer l'invite du ligand entre guillemets simples ('').
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT : une stratégie basée sur le GPT pour concevoir des ligands potentiels ciblant des protéines spécifiques
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848 ; est ce que je: https://doi.org/10.1101/2023.06.29.543848
Licence publique générale GNU v3.0