2024/08/11 Temos o prazer de anunciar um novo recurso, Ligand Energy Minimization, agora disponível em nosso último lançamento. Além disso, explore nossa nova ferramenta, druggpt_min_multi.py, projetada especificamente para minimização eficiente de energia de vários ligantes.
30/07/2024 Todas as validações de laboratório úmido foram concluídas, confirmando que o DrugGPT possui recursos de otimização de ligantes.
2024/05/16 Experimentos de laboratório úmido confirmam a capacidade do druggpt de projetar ligantes com novos andaimes do zero e de reaproveitar ligantes existentes. A otimização do ligante permanece em avaliação. Fique ligado para mais atualizações!
2024/05/16 A versão foi atualizada para druggpt_v1.2, apresentando novos recursos de controle de número de átomos. Devido a problemas de compatibilidade, o webui foi removido.
2024/04/03 Versão atualizada para druggpt_v1.1, melhorando a estabilidade e adicionando um webui. Versões futuras contarão com controle do número de átomos nas moléculas. Fique atento.
31/03/2024 Após consideração cuidadosa, pretendo criar novos repositórios chamados druggpt_toolbox e druggpt_train para armazenar scripts de ferramentas de pós-processamento e scripts de treinamento, respectivamente. Este repositório deve focar principalmente na geração de moléculas candidatas a medicamentos.
31/03/2024 Decidi criar um branch chamado druggpt_v1.0 para a versão atual, pois é uma versão estável. Posteriormente, continuarei atualizando o código.
2024/01/18 Este projeto está agora sob avaliação experimental para confirmar seu valor real na pesquisa de medicamentos. Por favor, continue nos seguindo!
DrugGPT apresenta uma estratégia de design de ligantes baseada no modelo autorregressivo, GPT, com foco na exploração química do espaço e na descoberta de ligantes para proteínas específicas. Modelos de linguagem de aprendizagem profunda demonstraram potencial significativo em vários domínios, incluindo design de proteínas e análise de textos biomédicos, fornecendo forte apoio para a proposição do DrugGPT.
Neste estudo, empregamos o modelo DrugGPT para aprender uma quantidade substancial de dados de ligação proteína-ligante, com o objetivo de descobrir novas moléculas que possam se ligar a proteínas específicas. Esta estratégia não só melhora significativamente a eficiência do desenho do ligante, mas também oferece um caminho rápido e eficaz para o processo de desenvolvimento de medicamentos, trazendo novas possibilidades para o domínio farmacêutico.
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
Ou você pode simplesmente clicar em Código> Baixar ZIP para baixar este repositório.
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
Usar drug_generator.py
Parâmetros necessários:
-p
| --pro_seq
: Insira uma sequência de aminoácidos da proteína.
-f
| --fasta
: Insira um arquivo FASTA.
Apenas um entre -p e -f deve ser especificado.
-l
| --ligand_prompt
: Insira um prompt de ligante.
-e
| --empty_input
: Habilita o modo de geração direta.
-n
| --number
: Pelo menos quantas moléculas serão geradas.
-d
| --device
: dispositivo de hardware a ser usado. O padrão é 'cuda'.
-o
| --output
: diretório de saída para moléculas geradas. O padrão é './ligand_output/'.
-b
| --batch_size
: Quantas moléculas serão geradas por lote. Tente reduzir esse valor se você tiver pouca memória RAM. O padrão é 16.
-t
| --temperature
: Ajusta a aleatoriedade da geração de texto; valores mais altos produzem resultados mais diversos. O valor padrão é 1,0.
--top_k
: O número de tokens de maior probabilidade a serem considerados para a amostragem top-k. O padrão é 9.
--top_p
: O limite de probabilidade cumulativa (0,0 - 1,0) para amostragem top-p (núcleo). Ele define o subconjunto mínimo de tokens a serem considerados para amostragem aleatória. O padrão é 0,9.
--min_atoms
: Número mínimo de átomos não-H permitidos para geração. O padrão é Nenhum.
--max_atoms
: Número máximo de átomos não-H permitidos para geração. O padrão é 35.
--no_limit
: Desativa o limite máximo de átomos padrão.
Se o
-l
| Se a opção--ligand_prompt
for usada, os parâmetros--max_atoms
e--min_atoms
serão desconsiderados.
Se você deseja inserir um arquivo FASTA de proteína
python drug_generator.py -f bcl2.fasta -n 50
Se você quiser inserir a sequência de aminoácidos da proteína
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
Se você quiser fornecer um prompt para o ligante
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
Nota: Se você estiver executando em um ambiente Linux, será necessário colocar o prompt do ligante entre aspas simples ('').
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT: uma estratégia baseada em GPT para projetar ligantes potenciais direcionados a proteínas específicas
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848
Licença Pública Geral GNU v3.0