11/08/2024 Nos complace anunciar una nueva función, Minimización de energía de ligando, que ahora está disponible en nuestra última versión. Además, explore nuestra nueva herramienta, druggpt_min_multi.py, diseñada específicamente para la minimización eficiente de la energía de múltiples ligandos.
30/07/2024 Se han completado todas las validaciones en laboratorio húmedo, lo que confirma que DrugGPT posee capacidades de optimización de ligandos.
2024/05/16 Los experimentos de laboratorio húmedo confirman la capacidad de Druggpt para diseñar ligandos con nuevos soportes desde cero y reutilizar ligandos existentes. La optimización del ligando sigue bajo evaluación. ¡Estén atentos para más actualizaciones!
16/05/2024 La versión se ha actualizado a druggpt_v1.2, que presenta nuevas capacidades de control del número atómico. Debido a problemas de compatibilidad, se eliminó la webui.
03/04/2024 Versión actualizada a druggpt_v1.1, mejorando la estabilidad y agregando una interfaz de usuario web. Las versiones futuras incluirán control del número de átomos en las moléculas. Manténganse al tanto.
31/03/2024 Después de una cuidadosa consideración, planeo crear nuevos repositorios llamados druggpt_toolbox y druggpt_train para almacenar scripts de herramientas de posprocesamiento y scripts de capacitación, respectivamente. Este repositorio debería centrarse principalmente en la generación de moléculas candidatas a fármacos.
31/03/2024 He decidido crear una rama llamada druggpt_v1.0 para la versión actual, ya que es una versión estable. Posteriormente, continuaré actualizando el código.
18/01/2024 Este proyecto se encuentra ahora bajo evaluación experimental para confirmar su valor real en la investigación de fármacos. ¡Por favor continúa siguiéndonos!
DrugGPT presenta una estrategia de diseño de ligandos basada en el modelo autorregresivo, GPT, centrándose en la exploración del espacio químico y el descubrimiento de ligandos para proteínas específicas. Los modelos de lenguaje de aprendizaje profundo han mostrado un potencial significativo en varios dominios, incluido el diseño de proteínas y el análisis de textos biomédicos, lo que brinda un fuerte apoyo a la propuesta de DrugGPT.
En este estudio, empleamos el modelo DrugGPT para conocer una cantidad sustancial de datos de unión proteína-ligando, con el objetivo de descubrir nuevas moléculas que puedan unirse con proteínas específicas. Esta estrategia no sólo mejora significativamente la eficiencia del diseño de ligandos, sino que también ofrece una vía rápida y eficaz para el proceso de desarrollo de fármacos, aportando nuevas posibilidades al ámbito farmacéutico.
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
O simplemente puede hacer clic en Código>Descargar ZIP para descargar este repositorio.
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
Utilice drug_generator.py
Parámetros requeridos:
-p
| --pro_seq
: ingresa una secuencia de aminoácidos de proteína.
-f
| --fasta
: ingresa un archivo FASTA.
Sólo se debe especificar uno de -p y -f.
-l
| --ligand_prompt
: ingresa un mensaje de ligando.
-e
| --empty_input
: habilita el modo de generación directa.
-n
| --number
: Al menos cuántas moléculas se generarán.
-d
| --device
: Dispositivo de hardware a utilizar. El valor predeterminado es 'cuda'.
-o
| --output
: directorio de salida para las moléculas generadas. El valor predeterminado es './ligand_output/'.
-b
| --batch_size
: cuántas moléculas se generarán por lote. Intente reducir este valor si tiene poca RAM. El valor predeterminado es 16.
-t
| --temperature
: ajusta la aleatoriedad de la generación de texto; los valores más altos producen resultados más diversos. El valor predeterminado es 1,0.
--top_k
: el número de tokens de mayor probabilidad a considerar para el muestreo top-k. El valor predeterminado es 9.
--top_p
: el umbral de probabilidad acumulada (0,0 - 1,0) para el muestreo top-p (núcleo). Define el subconjunto mínimo de tokens a considerar para el muestreo aleatorio. El valor predeterminado es 0,9.
--min_atoms
: Número mínimo de átomos distintos de H permitidos para la generación. El valor predeterminado es Ninguno.
--max_atoms
: Número máximo de átomos distintos de H permitidos para la generación. El valor predeterminado es 35.
--no_limit
: deshabilita el límite máximo de átomos predeterminado.
Si el
-l
| Si se utiliza la opción--ligand_prompt
, los parámetros--max_atoms
y--min_atoms
no se tendrán en cuenta.
Si desea ingresar un archivo FASTA de proteína
python drug_generator.py -f bcl2.fasta -n 50
Si desea ingresar la secuencia de aminoácidos de la proteína
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
Si desea proporcionar un mensaje para el ligando
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
Nota: Si está ejecutando en un entorno Linux, debe incluir el mensaje del ligando entre comillas simples ('').
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT: una estrategia basada en GPT para diseñar ligandos potenciales dirigidos a proteínas específicas
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848
Licencia pública general GNU v3.0