11.08.2024 Мы рады объявить о новой функции «Минимизация энергии лигандов», которая теперь доступна в нашей последней версии. Кроме того, изучите наш новый инструмент Druggpt_min_multi.py, разработанный специально для эффективной минимизации энергии нескольких лигандов.
30 июля 2024 г. Завершены все проверки в мокрых лабораториях, подтверждающие, что DrugGPT обладает возможностями оптимизации лигандов.
16.05.2024 Эксперименты в мокрой лаборатории подтверждают способность Druggpt создавать лиганды с новыми каркасами с нуля и перепрофилировать существующие лиганды. Оптимизация лигандов все еще находится на стадии оценки. Следите за обновлениями!
16.05.2024 Версия была обновлена до Druggpt_v1.2, в которой появились новые возможности управления числом атомов. Из-за проблем с совместимостью webui был удален.
03.04.2024 Версия обновлена до Druggpt_v1.1, повышена стабильность и добавлен веб-интерфейс. В будущих версиях будет реализован контроль количества атомов в молекулах. Следите за обновлениями.
2024/03/31 После тщательного рассмотрения я планирую создать новые репозитории с именами Druggpt_toolbox и Druggpt_train для хранения скриптов инструментов постобработки и обучающих скриптов соответственно. Это хранилище должно быть сосредоточено в первую очередь на создании молекул-кандидатов в лекарства.
31.03.2024 Я решил создать ветку под названием Druggpt_v1.0 для текущей версии, поскольку это стабильная версия. В дальнейшем я продолжу обновлять код.
2024/01/18 Этот проект сейчас находится на стадии экспериментальной оценки, чтобы подтвердить его реальную ценность в исследованиях лекарств. Пожалуйста, продолжайте следить за нами!
DrugGPT представляет стратегию разработки лигандов, основанную на авторегрессионной модели GPT, с упором на химическое исследование космоса и открытие лигандов для конкретных белков. Языковые модели глубокого обучения продемонстрировали значительный потенциал в различных областях, включая дизайн белков и анализ биомедицинских текстов, что обеспечивает надежную поддержку предложения DrugGPT.
В этом исследовании мы используем модель DrugGPT, чтобы изучить значительный объем данных о связывании белков с лигандами, стремясь обнаружить новые молекулы, которые могут связываться со специфическими белками. Эта стратегия не только значительно повышает эффективность разработки лигандов, но также предлагает быстрый и эффективный путь для процесса разработки лекарств, открывая новые возможности в фармацевтической области.
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
Или вы можете просто нажать «Код»> «Загрузить ZIP», чтобы загрузить этот репозиторий.
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
Используйте Drug_generator.py
Обязательные параметры:
-p
| --pro_seq
: Введите аминокислотную последовательность белка.
-f
| --fasta
: введите файл FASTA.
Должен быть указан только один из -p и -f.
-l
| --ligand_prompt
: введите запрос лиганда.
-e
| --empty_input
: включить режим прямой генерации.
-n
| --number
: По крайней мере, сколько молекул будет сгенерировано.
-d
| --device
: используемое аппаратное устройство. По умолчанию — «куда».
-o
| --output
: Выходной каталог для сгенерированных молекул. По умолчанию — «./ligand_output/».
-b
| --batch_size
: сколько молекул будет создано за партию. Попробуйте уменьшить это значение, если у вас мало оперативной памяти. По умолчанию — 16.
-t
| --temperature
: регулирует случайность генерации текста; более высокие значения дают более разнообразные результаты. Значение по умолчанию — 1,0.
--top_k
: количество токенов с наибольшей вероятностью, которые следует учитывать при выборке top-k. По умолчанию 9.
--top_p
: совокупный порог вероятности (0,0–1,0) для выборки top-p (ядра). Он определяет минимальное подмножество токенов, которые следует учитывать при случайной выборке. По умолчанию 0,9.
--min_atoms
: Минимальное количество атомов, отличных от H, разрешенное для генерации. По умолчанию — Нет.
--max_atoms
: Максимальное количество атомов, отличных от H, разрешенное для генерации. По умолчанию 35.
--no_limit
: отключить ограничение максимального количества атомов по умолчанию.
Если
-l
| Используется опция--ligand_prompt
, параметры--max_atoms
и--min_atoms
будут игнорироваться.
Если вы хотите ввести файл белка FASTA
python drug_generator.py -f bcl2.fasta -n 50
Если вы хотите ввести аминокислотную последовательность белка
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
Если вы хотите предоставить подсказку для лиганда
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
Примечание. Если вы работаете в среде Linux, вам необходимо заключить приглашение лиганда в одинарные кавычки ('').
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT: стратегия на основе GPT для разработки потенциальных лигандов, нацеленных на определенные белки
Юэсень Ли, Чэнъи Гао, Синь Сун, Сянъюй Ван, Юнган Сюй, Суся Хань
bioRxiv 2023.06.29.543848; дои: https://doi.org/10.1101/2023.06.29.543848
Стандартная общественная лицензия GNU v3.0