2024/08/11 이제 최신 릴리스에서 사용할 수 있는 새로운 기능인 리간드 에너지 최소화를 발표하게 되어 기쁘게 생각합니다. 또한 여러 리간드의 효율적인 에너지 최소화를 위해 특별히 설계된 새로운 도구 druggpt_min_multi.py를 살펴보세요.
2024/07/30 모든 습식 실험실 검증이 완료되어 DrugGPT가 리간드 최적화 기능을 보유하고 있음이 확인되었습니다.
2024/05/16 Wet-lab 실험을 통해 처음부터 새로운 스캐폴드로 리간드를 설계하고 기존 리간드의 용도를 변경할 수 있는 druggpt의 능력이 확인되었습니다. 리간드 최적화는 아직 평가 중입니다. 더 많은 업데이트를 기대해 주세요!
2024/05/16 새로운 원자 번호 제어 기능을 갖춘 druggpt_v1.2 버전으로 업그레이드되었습니다. 호환성 문제로 인해 webui가 제거되었습니다.
2024/04/03 druggpt_v1.1 버전으로 업그레이드되어 안정성이 강화되고 webui가 추가되었습니다. 향후 버전에서는 분자의 원자 번호 제어 기능을 제공할 예정입니다. 계속 지켜봐 주시기 바랍니다.
2024/03/31 신중하게 고민한 끝에, 후처리 도구 스크립트와 훈련 스크립트를 각각 저장하기 위해 druggpt_toolbox와 druggpt_train이라는 이름의 새로운 저장소를 만들 계획입니다. 이 저장소는 주로 약물 후보 분자 생성에 중점을 두어야 합니다.
2024/03/31 현재 버전은 안정 릴리스이므로 druggpt_v1.0이라는 브랜치를 만들기로 결정했습니다. 이후에는 계속해서 코드를 업데이트하겠습니다.
2024/01/18 이 프로젝트는 현재 약물 연구에서의 실제 가치를 확인하기 위해 실험적 평가를 받고 있습니다. 계속해서 팔로우해주세요!
DrugGPT는 화학적 공간 탐색과 특정 단백질에 대한 리간드 발견에 초점을 맞춘 자기회귀 모델인 GPT를 기반으로 한 리간드 설계 전략을 제시합니다. 딥 러닝 언어 모델은 단백질 설계 및 생물 의학 텍스트 분석을 포함한 다양한 영역에서 상당한 잠재력을 보여 주며 DrugGPT 제안을 강력하게 뒷받침합니다.
본 연구에서 우리는 특정 단백질과 결합할 수 있는 새로운 분자를 발견하는 것을 목표로 DrugGPT 모델을 사용하여 상당한 양의 단백질-리간드 결합 데이터를 학습합니다. 이 전략은 리간드 설계의 효율성을 크게 향상시킬 뿐만 아니라 약물 개발 과정을 위한 신속하고 효과적인 방법을 제공하여 제약 영역에 새로운 가능성을 가져옵니다.
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
또는 코드>ZIP 다운로드를 클릭하여 이 저장소를 다운로드할 수도 있습니다.
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
drug_generator.py 사용
필수 매개변수:
-p
| --pro_seq
: 단백질 아미노산 서열을 입력합니다.
-f
| --fasta
: FASTA 파일을 입력합니다.
-p와 -f 중 하나만 지정해야 합니다.
-l
| --ligand_prompt
: 리간드 프롬프트를 입력합니다.
-e
| --empty_input
: 직접 생성 모드를 활성화합니다.
-n
| --number
: 최소한 몇 개의 분자가 생성될 것인지입니다.
-d
| --device
: 사용할 하드웨어 장치입니다. 기본값은 '쿠다'입니다.
-o
| --output
: 생성된 분자의 출력 디렉터리입니다. 기본값은 './ligand_output/'입니다.
-b
| --batch_size
: 배치당 생성되는 분자 수입니다. RAM이 부족한 경우 이 값을 줄여보세요. 기본값은 16입니다.
-t
| --temperature
: 텍스트 생성의 무작위성을 조정합니다. 값이 높을수록 더 다양한 출력이 생성됩니다. 기본값은 1.0입니다.
--top_k
: 상위 k 샘플링을 위해 고려할 가장 높은 확률의 토큰 수입니다. 기본값은 9입니다.
--top_p
: top-p(핵) 샘플링에 대한 누적 확률 임계값(0.0 - 1.0)입니다. 무작위 샘플링을 위해 고려해야 할 최소 토큰 하위 집합을 정의합니다. 기본값은 0.9입니다.
--min_atoms
: 생성에 허용되는 비H 원자의 최소 수입니다. 기본값은 없음입니다.
--max_atoms
: 생성에 허용되는 비H 원자의 최대 수입니다. 기본값은 35입니다.
--no_limit
: 기본 최대 원자 제한을 비활성화합니다.
-l
|--ligand_prompt
옵션이 사용되면--max_atoms
및--min_atoms
매개변수가 무시됩니다.
단백질 FASTA 파일을 입력하고 싶다면
python drug_generator.py -f bcl2.fasta -n 50
단백질의 아미노산 서열을 입력하고 싶은 경우
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
리간드에 대한 프롬프트를 제공하려는 경우
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
참고: Linux 환경에서 실행 중인 경우 리간드의 프롬프트를 작은따옴표('')로 묶어야 합니다.
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT: 특정 단백질을 표적으로 하는 잠재적 리간드 설계를 위한 GPT 기반 전략
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; 도이: https://doi.org/10.1101/2023.06.29.543848
GNU 일반 공중 라이선스 v3.0