11/08/2024 เรารู้สึกตื่นเต้นที่จะประกาศฟีเจอร์ใหม่ การย่อพลังงานลิแกนด์ ซึ่งพร้อมใช้งานแล้วในรุ่นล่าสุดของเรา นอกจากนี้ ลองสำรวจเครื่องมือใหม่ของเรา druggpt_min_multi.py ซึ่งออกแบบมาโดยเฉพาะสำหรับการลดพลังงานของลิแกนด์หลายตัวอย่างมีประสิทธิภาพ
30/07/2024 การตรวจสอบห้องปฏิบัติการเปียกทั้งหมดเสร็จสิ้นแล้ว โดยยืนยันว่า DrugGPT มีความสามารถในการเพิ่มประสิทธิภาพลิแกนด์
การทดลองในห้องปฏิบัติการเปียก 2024/05/16 ยืนยันความสามารถของ druggpt ในการออกแบบลิแกนด์ด้วยโครงใหม่ตั้งแต่เริ่มต้น และนำลิแกนด์ที่มีอยู่ไปใช้ใหม่ การเพิ่มประสิทธิภาพลิแกนด์ยังอยู่ระหว่างการประเมิน คอยติดตามการปรับปรุงเพิ่มเติม!
16/05/2024 เวอร์ชันได้รับการอัปเกรดเป็น druggpt_v1.2 ซึ่งมีความสามารถในการควบคุมเลขอะตอมใหม่ เนื่องจากปัญหาความเข้ากันได้ webui จึงถูกลบออก
2024/04/03 อัปเกรดเวอร์ชันเป็น druggpt_v1.1 ปรับปรุงเสถียรภาพและเพิ่ม webui เวอร์ชันในอนาคตจะมีการควบคุมเลขอะตอมในโมเลกุล คอยติดตาม
31/03/2024 หลังจากพิจารณาอย่างถี่ถ้วนแล้ว ฉันวางแผนที่จะสร้างพื้นที่เก็บข้อมูลใหม่ชื่อ druggpt_toolbox และ druggpt_train เพื่อจัดเก็บสคริปต์เครื่องมือหลังการประมวลผลและสคริปต์การฝึกอบรมตามลำดับ พื้นที่เก็บข้อมูลนี้ควรมุ่งเน้นที่การสร้างโมเลกุลของผู้สมัครยาเป็นหลัก
31/03/2024 ฉันตัดสินใจสร้างสาขาชื่อ druggpt_v1.0 สำหรับเวอร์ชันปัจจุบันเนื่องจากเป็นเวอร์ชันเสถียร ต่อไปผมจะอัพเดตโค้ดต่อไปครับ
2024/01/18 ขณะนี้โครงการนี้อยู่ระหว่างการประเมินเชิงทดลองเพื่อยืนยันคุณค่าที่แท้จริงในการวิจัยยา โปรดติดตามเราต่อไป!
DrugGPT นำเสนอกลยุทธ์การออกแบบลิแกนด์โดยใช้แบบจำลองการถดถอยอัตโนมัติ GPT โดยมุ่งเน้นไปที่การสำรวจอวกาศทางเคมีและการค้นพบลิแกนด์สำหรับโปรตีนจำเพาะ แบบจำลองภาษาการเรียนรู้เชิงลึกได้แสดงให้เห็นถึงศักยภาพที่สำคัญในโดเมนต่างๆ รวมถึงการออกแบบโปรตีนและการวิเคราะห์ข้อความทางชีวการแพทย์ ซึ่งให้การสนับสนุนอย่างมากสำหรับข้อเสนอของ DrugGPT
ในการศึกษานี้ เราใช้แบบจำลอง DrugGPT เพื่อเรียนรู้ข้อมูลการจับกับโปรตีนและลิแกนด์จำนวนมาก โดยมีเป้าหมายเพื่อค้นหาโมเลกุลใหม่ที่สามารถจับกับโปรตีนจำเพาะได้ กลยุทธ์นี้ไม่เพียงแต่ปรับปรุงประสิทธิภาพของการออกแบบลิแกนด์อย่างมีนัยสำคัญ แต่ยังเสนอช่องทางที่รวดเร็วและมีประสิทธิภาพสำหรับกระบวนการพัฒนายา ซึ่งนำความเป็นไปได้ใหม่ๆ มาสู่ขอบเขตทางเภสัชกรรม
git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt
หรือคุณสามารถคลิก รหัส>ดาวน์โหลด ZIP เพื่อดาวน์โหลด repo นี้
conda create -n druggpt python=3.7
conda activate druggpt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
pip install datasets transformers scipy scikit-learn psutil
conda install conda-forge/label/cf202003::openbabel
ใช้ drug_generator.py
พารามิเตอร์ที่จำเป็น:
-p
| --pro_seq
: ป้อนลำดับกรดอะมิโนโปรตีน
-f
| --fasta
: ป้อนไฟล์ FASTA
ควรระบุ -p และ -f เพียงอันเดียวเท่านั้น
-l
| --ligand_prompt
: ป้อนพรอมต์ลิแกนด์
-e
| --empty_input
: เปิดใช้งานโหมดสร้างโดยตรง
-n
| --number
: อย่างน้อยที่สุดว่าจะเกิดกี่โมเลกุล
-d
| --device
: อุปกรณ์ฮาร์ดแวร์ที่จะใช้ ค่าเริ่มต้นคือ 'cuda'
-o
| --output
: ไดเรกทอรีผลลัพธ์สำหรับโมเลกุลที่สร้างขึ้น ค่าเริ่มต้นคือ './ligand_output/'
-b
| --batch_size
: จำนวนโมเลกุลที่จะถูกสร้างขึ้นต่อชุด ลองลดค่านี้หากคุณมี RAM ต่ำ ค่าเริ่มต้นคือ 16
-t
| --temperature
: ปรับความสุ่มของการสร้างข้อความ ค่าที่สูงกว่าจะให้ผลลัพธ์ที่หลากหลายมากขึ้น ค่าเริ่มต้นคือ 1.0
--top_k
: จำนวนโทเค็นความน่าจะเป็นสูงสุดที่ต้องพิจารณาสำหรับการสุ่มตัวอย่าง top-k ค่าเริ่มต้นคือ 9
--top_p
: เกณฑ์ความน่าจะเป็นสะสม (0.0 - 1.0) สำหรับการสุ่มตัวอย่าง top-p (นิวเคลียส) โดยจะกำหนดเซ็ตย่อยขั้นต่ำของโทเค็นเพื่อพิจารณาสำหรับการสุ่มตัวอย่าง ค่าเริ่มต้นเป็น 0.9
--min_atoms
: จำนวนอะตอมที่ไม่ใช่ H ขั้นต่ำที่อนุญาตสำหรับการสร้าง ค่าเริ่มต้นเป็นไม่มี
--max_atoms
: จำนวนอะตอมที่ไม่ใช่ H สูงสุดที่อนุญาตสำหรับการสร้าง ค่าเริ่มต้นคือ 35
--no_limit
: ปิดใช้งานขีดจำกัดอะตอมสูงสุดเริ่มต้น
ถ้า
-l
| มีการใช้ตัวเลือก--ligand_prompt
พารามิเตอร์--max_atoms
และ--min_atoms
จะไม่ถูกสนใจ
หากคุณต้องการอินพุตไฟล์โปรตีน FASTA
python drug_generator.py -f bcl2.fasta -n 50
หากต้องการใส่ลำดับกรดอะมิโนของโปรตีน
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
หากคุณต้องการจัดเตรียมพรอมต์สำหรับลิแกนด์
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
หมายเหตุ: หากคุณใช้งานในสภาพแวดล้อม Linux คุณจะต้องใส่พรอมต์ของลิแกนด์ด้วยเครื่องหมายคำพูดเดี่ยว ('')
python drug_generator.py -f bcl2.fasta -l ' COc1ccc(cc1)C(=O) ' -n 50
DrugGPT: กลยุทธ์ที่ใช้ GPT สำหรับการออกแบบลิแกนด์ที่มีศักยภาพซึ่งกำหนดเป้าหมายโปรตีนเฉพาะ
หลี่เยว่เซิน, เฉิงอี้ เกา, ซิน ซ่ง, เซียงหยู หวาง, หยุนกัง ซู, ซูเซีย ฮัน
ไบโออาร์ซิฟ 2023.06.29.543848; ดอย : https://doi.org/10.1101/2023.06.29.543848
ใบอนุญาตสาธารณะทั่วไปของ GNU v3.0