โปรแกรมแก้ไข Downcodes นำเสนอข้อมูลเบื้องต้นที่ครอบคลุมเกี่ยวกับฐานข้อมูล NCBI NCBI (ศูนย์ข้อมูลเทคโนโลยีชีวภาพแห่งชาติ) เป็นศูนย์ในเครือของสถาบันสุขภาพแห่งชาติ (NIH) เป็นศูนย์รักษาฐานข้อมูลด้านชีวการแพทย์ที่สำคัญหลายแห่งซึ่งมีแหล่งข้อมูลจำนวนมหาศาลและเครื่องมือวิเคราะห์อันทรงพลังสำหรับการวิจัยทางชีวการแพทย์ระดับโลก บทความนี้จะเจาะลึกฐานข้อมูลหลัก 8 แห่งของ NCBI ได้แก่ GenBank, PubMed, BLAST, โปรตีน, นิวคลีโอไทด์, ยีน, OMIM และ GEO พร้อมแนะนำฟังก์ชันและการใช้งานที่เกี่ยวข้องโดยละเอียด
NCBI มีฐานข้อมูลหลายระบบ รวมถึง GenBank, PubMed, BLAST, โปรตีน, นิวคลีโอไทด์, ยีน, OMIM, GEO เป็นต้น แต่ละฐานข้อมูลมีฟังก์ชันเฉพาะของตัวเอง ซึ่งเมื่อรวมกันแล้วจะให้การสนับสนุนและแหล่งข้อมูลที่มีประสิทธิภาพสำหรับการวิจัยทางชีวการแพทย์
ฐานข้อมูล GenBank เป็นฐานข้อมูลลำดับทางพันธุกรรมสาธารณะขนาดใหญ่ที่ให้ผู้ใช้สามารถค้นหา ดาวน์โหลด และวิเคราะห์ข้อมูลลำดับทางพันธุกรรมของสิ่งมีชีวิตต่างๆ ตัวอย่างเช่น นักวิจัยสามารถค้นหาลำดับทางพันธุกรรมของสายพันธุ์บางชนิดได้ที่นี่ ทำการวิเคราะห์เปรียบเทียบ และแม้กระทั่งส่งข้อมูลลำดับใหม่
1. เกนแบงก์
ฐานข้อมูล GenBank เป็นฐานข้อมูลลำดับ DNA สาธารณะที่ใหญ่ที่สุดในโลก และได้รับการดูแลโดย National Center for Biotechnology Information (NCBI) ซึ่งเป็นบริษัทในเครือของ National Institutes of Health (NIH) ประกอบด้วยข้อมูลลำดับจำนวนมากที่ได้รับจากสิ่งมีชีวิตหลากหลายชนิด และมีการเพิ่มข้อมูลใหม่ทุกวัน หน้าที่หลักของ GenBank รวมถึงแต่ไม่จำกัดเฉพาะการจัดเก็บ การเรียกค้น และการแลกเปลี่ยนข้อมูลลำดับทางพันธุกรรม นอกจากนี้ GenBank ยังร่วมมือกับฐานข้อมูลลำดับสากลอื่นๆ เช่น EMBL ของยุโรปและ DDBJ ของญี่ปุ่น เพื่อให้มั่นใจว่ามีการแบ่งปันข้อมูลลำดับทางพันธุกรรมทั่วโลก
GenBank รองรับการค้นหาตามลำดับประเภทต่างๆ เช่น การค้นหาด้วยคำสำคัญ ชื่อสายพันธุ์ ชื่อผู้แต่ง ฯลฯ เพื่ออำนวยความสะดวกในการวิจัย GenBank ยังมีเครื่องมือส่งทางออนไลน์เพื่อให้นักวิจัยส่งลำดับทางพันธุกรรมใหม่ ผลงานที่ส่งเข้ามาเหล่านี้จะถูกเผยแพร่ต่อสถาบันวิจัยทางวิทยาศาสตร์และบุคคลทั่วโลก หลังจากผ่านคำอธิบายประกอบและการควบคุมคุณภาพ
2. เผยแพร่แล้ว
PubMed เป็นระบบสืบค้นวรรณกรรมฟรีที่รวบรวมเอกสารวารสารในสาขาชีวการแพทย์เป็นหลัก ฟังก์ชันของ PubMed มีประสิทธิภาพและหลากหลายมาก ไม่เพียงแต่รวมถึงการเรียกค้นข้อมูลเชิงนามธรรมในวรรณกรรมแบบดั้งเดิมเท่านั้น แต่ยังสามารถเชื่อมโยงไปยังแหล่งข้อมูลฉบับเต็มได้โดยตรง มีเครื่องมือการจัดการวรรณกรรม และยังมีบริการ API การขุดข้อมูลพิเศษอีกด้วย ตัวอย่างเช่น นักวิจัยสามารถใช้ PubMed เพื่อค้นหาผลการวิจัยล่าสุดเกี่ยวกับโรคบางชนิดหรือยีนบางตัวเพื่อรับแรงบันดาลใจทางทฤษฎีและการทดลอง
บันทึกส่วนใหญ่ในฐานข้อมูล PubMed ยังมีบทคัดย่อของสิ่งพิมพ์และลิงก์ที่คลิกได้เพื่ออ้างอิงข้อมูล และหลายรายการมีลิงก์เข้าถึงข้อความแบบเต็มฟรี (บทความใน PMC) นอกจากนี้ คุณสมบัติ My NCBI ของ PubMed ยังช่วยให้ผู้ใช้ปรับแต่งกลยุทธ์การค้นหา บันทึกผลการค้นหา และสร้างการแจ้งเตือนทางอีเมล
3. ระเบิด
BLAST เป็นเครื่องมือจัดตำแหน่งลำดับทั่วไปที่สามารถค้นหาลำดับที่มีความคล้ายคลึงกับลำดับที่กำหนดอย่างมาก ฐานข้อมูล BLAST ประกอบด้วยข้อมูลลำดับจำนวนมากที่ได้รับจาก GenBank และแหล่งที่มาอื่นๆ และจัดเตรียมโปรแกรมการจัดตำแหน่งที่หลากหลาย เช่น นิวคลีโอไทด์ BLAST สำหรับการเปรียบเทียบลำดับนิวคลีโอไทด์ และโปรตีน BLAST สำหรับการเปรียบเทียบลำดับโปรตีน หน้าที่ของ BLAST คือการช่วยให้ผู้ใช้ระบุที่มาและหน้าที่ของลำดับ การอนุมานความสัมพันธ์ทางพันธุกรรม และระบุความคล้ายคลึงระหว่างลำดับต่างๆ
การใช้ BLAST นั้นง่ายมาก นักวิจัยจำเป็นต้องป้อนลำดับเท่านั้น และ BLAST จะส่งคืนชุดของลำดับที่คล้ายกันและข้อมูลที่เกี่ยวข้องอย่างรวดเร็ว เช่น ความคล้ายคลึงกับลำดับเป้าหมาย ขอบเขตที่ตรงกัน ฯลฯ ข้อมูลนี้มีความสำคัญอย่างยิ่งในการค้นพบยีนใหม่ ศึกษาการทำงานของยีน และดำเนินการศึกษาวิวัฒนาการอย่างเป็นระบบ
4. โปรตีน
ฐานข้อมูลโปรตีนของ NCBI เป็นฐานข้อมูลที่เน้นไปที่ลำดับและฟังก์ชันของโปรตีน โดยรวบรวมข้อมูลลำดับโปรตีนจากแหล่งที่มาต่างๆ รวมถึง GenBank, RefSeq, TPA และ PDB และมีเครื่องมือค้นหาและการวิเคราะห์ที่หลากหลาย คุณลักษณะของฐานข้อมูลโปรตีนคือการให้ข้อมูลคำอธิบายประกอบโดยละเอียดสำหรับลำดับโปรตีน ซึ่งรวมถึงแต่ไม่จำกัดเพียงคำอธิบายการทำงาน ข้อมูลเชิงโครงสร้าง ลำดับที่คล้ายกัน การอ้างอิงวรรณกรรม ฯลฯ
ฐานข้อมูลโปรตีนยังได้รับการผสานรวมอย่างแน่นหนากับเครื่องมือ BLAST ซึ่งช่วยให้สามารถจัดตำแหน่งและวิเคราะห์ลำดับโปรตีนได้ นักวิจัยมักใช้ข้อมูลนี้เพื่อทำนายการทำงานของโปรตีน สำรวจความเกี่ยวข้องกับโรค หรือออกแบบและสร้างโปรตีนสำหรับการใช้งานด้านวิศวกรรมชีวภาพ
5. นิวคลีโอไทด์
ฐานข้อมูลนิวคลีโอไทด์อ้างอิงถึงฐานข้อมูลที่ดูแลโดย NCBI โดยเฉพาะสำหรับลำดับนิวคลีโอไทด์เดี่ยว บันทึกลำดับ DNA และ RNA จำนวนมากถูกรวบรวมไว้ที่นี่ และอินเทอร์เฟซการค้นหาช่วยให้ผู้ใช้สามารถดึงข้อมูลตามเงื่อนไขต่างๆ (เช่น สปีชีส์ ชื่อยีน รหัสลำดับ ฯลฯ) ฐานข้อมูลนิวคลีโอไทด์ถูกนำมาใช้กันอย่างแพร่หลายในการวิเคราะห์ชีวสารสนเทศศาสตร์ การวิจัยอณูชีววิทยา และการวิจัยทางพันธุกรรม
นักวิจัยสามารถเข้าถึงและดาวน์โหลดข้อมูลลำดับทางพันธุกรรมที่เฉพาะเจาะจงได้อย่างรวดเร็วผ่านฐานข้อมูลนิวคลีโอไทด์ และดำเนินการโคลนยีน การเปรียบเทียบลำดับ การวิเคราะห์ความแปรผัน และงานอื่นๆ ที่ตามมา พลังของฐานข้อมูลนี้คือให้ข้อมูลจำนวนมหาศาลและได้รับการอัปเดตแบบเรียลไทม์ นอกจากนี้ยังเชื่อมโยงกับฐานข้อมูล NCBI อื่น ๆ เพื่อให้บริการสืบค้นข้อมูลนิวคลีโอไทด์แบบครบวงจรแก่นักวิจัยทางวิทยาศาสตร์
6. ยีน
ฐานข้อมูลยีนถูกใช้เป็นพิเศษเพื่อจัดเก็บยีนที่รู้จักและคาดการณ์และข้อมูลของมัน บันทึกยีนแต่ละรายการประกอบด้วยข้อมูลที่ครอบคลุมตั้งแต่ลำดับ การแสดงออกของยีน การทำงาน ไปจนถึงการปรับเปลี่ยนอีพิเจเนติกส์ ฐานข้อมูลยีนไม่เพียงแต่ให้ข้อมูลทางพันธุกรรมของสปีชีส์เดียวแก่ผู้ใช้เท่านั้น แต่ยังเชื่อมโยงบันทึกของยีนเดียวกันในสปีชีส์ต่าง ๆ เพื่ออำนวยความสะดวกในการวิจัยจีโนมเชิงเปรียบเทียบ
หน้าที่หลักประการหนึ่งของฐานข้อมูลยีนคือการให้ข้อมูลคำอธิบายโดยละเอียดของยีน รวมถึงชื่อยีน การแนะนำ รูปแบบการแสดงออก โรคที่เกี่ยวข้อง ฯลฯ ผู้ใช้สามารถเข้าใจเนื้อหาการวิจัยของยีนเฉพาะอย่างเจาะลึกผ่านฐานข้อมูลยีน ซึ่งมีความสำคัญอย่างยิ่งต่อการศึกษากลไกของโรคและการค้นพบเป้าหมายของยา
7. โอมิม
OMIM หรือ Online Mendelian Inheritance in Man เป็นฐานข้อมูลออนไลน์เกี่ยวกับโรคและยีนทางพันธุกรรม ประกอบด้วยข้อมูลโดยละเอียดเกี่ยวกับโรคทางพันธุกรรมของมนุษย์และการกลายพันธุ์ทางพันธุกรรมต่างๆ เป้าหมายของ OMIM คือการดึงคำอธิบายฟีโนไทป์และรายละเอียดจีโนไทป์ของโรคทางพันธุกรรมที่ทราบทั้งหมด และกลายเป็นแหล่งข้อมูลสำคัญสำหรับการศึกษาพยาธิวิทยาทางพันธุกรรมของมนุษย์
ข้อมูลในฐานข้อมูล OMIM มักจะรวมถึงลักษณะทางคลินิก รูปแบบทางพันธุกรรม พื้นฐานระดับโมเลกุลของโรค ฯลฯ นักวิจัยสามารถเข้าถึงข้อมูลโดยละเอียดเกี่ยวกับโรคทางพันธุกรรมที่เกี่ยวข้องผ่าน OMIM ได้อย่างรวดเร็ว ซึ่งมีประโยชน์อย่างมากในการวิจัยเกี่ยวกับกลไกของโรค การให้คำปรึกษาทางพันธุกรรม และวิธีการรักษา
8. ภูมิศาสตร์
GEO หรือ Gene Expression Omnibus เป็นฐานข้อมูลที่จัดเก็บข้อมูลการแสดงออกของยีนที่มีปริมาณงานสูง โดยเฉพาะข้อมูลไมโครอาร์เรย์และข้อมูลลำดับยุคถัดไป GEO ยอมรับข้อมูลการทดลองที่ส่งมาจากสาขาการวิจัยสหวิทยาการ และให้บริการสืบค้นและดาวน์โหลดข้อมูลเหล่านี้แก่นักวิจัยทางวิทยาศาสตร์
ข้อมูลในฐานข้อมูล GEO สามารถนำไปใช้ในการวิจัยทางชีวการแพทย์หลายประเภท เช่น การเปรียบเทียบความแตกต่างการแสดงออกของยีนระหว่างตัวอย่างที่แตกต่างกัน การวิเคราะห์ผลกระทบของวิธีการรักษาบางอย่างต่อการแสดงออกของยีน เป็นต้น ฐานข้อมูลนี้ยังมีเครื่องมือวิเคราะห์ที่เกี่ยวข้อง ช่วยให้นักวิจัยสามารถวิเคราะห์และแสดงภาพรูปแบบการแสดงออกของยีนทางออนไลน์ได้
โดยทั่วไป NCBI รวบรวมทรัพยากรฐานข้อมูลจำนวนมากในสาขาชีวการแพทย์ และให้การสนับสนุนข้อมูลที่มีประสิทธิภาพและเครื่องมือการวิจัยแก่นักวิจัย แต่ละฐานข้อมูลมีหน้าที่และการใช้งานเฉพาะตัว และมีบทบาทสำคัญในความก้าวหน้าของวิทยาศาสตร์ชีวภาพและการวิจัยทางการแพทย์
1. ฐานข้อมูลหลักใน NCBI (ศูนย์ข้อมูลเทคโนโลยีชีวภาพแห่งชาติ) มีอะไรบ้าง ฐานข้อมูลเหล่านี้ใช้ทำอะไร?
NCBI เป็นแหล่งข้อมูลสำคัญที่ให้ข้อมูลที่เกี่ยวข้องกับวิทยาศาสตร์เพื่อชีวิต ฐานข้อมูลหลักต่อไปนี้และฟังก์ชันต่างๆ จะถูกแนะนำด้านล่าง:
PubMed: นี่คือฐานข้อมูลวรรณกรรมชีวการแพทย์ ผ่านฐานข้อมูลย่อย PubMed Central (PMC) ผู้ใช้สามารถรับวรรณกรรมชีวการแพทย์คุณภาพสูงได้ฟรี GenBank: นี่คือฐานข้อมูลที่ประกอบด้วยข้อมูลลำดับดีเอ็นเอที่ช่วยให้นักวิจัยมีแพลตฟอร์มระดับโลกในการแบ่งปัน ค้นหา และเข้าถึงข้อมูลลำดับทางชีวภาพ GenBank จัดเก็บข้อมูลลำดับจีโนม ยีน และโปรตีนหลายร้อยล้านรายการ Sequence Read Archive (SRA): ฐานข้อมูลนี้จัดเก็บข้อมูลการจัดลำดับที่มีปริมาณงานสูงจำนวนมาก รวมถึงการเรียงลำดับชิ้นส่วน DNA, การจัดลำดับ RNA, การจัดลำดับโปรตีน และข้อมูลอื่นๆ ซึ่งนักวิจัยสามารถค้นหาชุดข้อมูลที่เหมาะสมสำหรับการวิจัยของตนเองได้ Protein Data Bank (PDB): นี่คือฐานข้อมูลโครงสร้างโปรตีนสามมิติที่เก็บข้อมูลโครงสร้างโปรตีนจำนวนมาก นักวิจัยสามารถรับข้อมูลโครงสร้างโปรตีนผ่าน PDB และเข้าใจความสัมพันธ์ระหว่างโครงสร้างโปรตีนและหน้าที่ Gene Expression Omnibus (GEO): นี่คือฐานข้อมูลการแสดงออกของยีนที่เก็บข้อมูลโปรไฟล์การถอดเสียงและการแสดงออกจำนวนมาก นักวิจัยสามารถใช้ฐานข้อมูล GEO เพื่อค้นหาข้อมูลการแสดงออกของยีนที่เกี่ยวข้องกับกระบวนการทางชีววิทยาหรือโรคที่เฉพาะเจาะจง2. ในฐานข้อมูลที่ NCBI จัดทำขึ้น ข้อมูลจีโนมประเภทใดที่ NCBI บันทึกไว้ ข้อมูลเหล่านี้นำไปใช้ในการวิจัยอย่างไร?
ข้อมูลจีโนมที่จับโดย NCBI มีหลายประเภท โดยส่วนใหญ่รวมถึงประเภทต่อไปนี้:
จีโนม: ลำดับจีโนมของสิ่งมีชีวิตทั้งหมด รวมถึงลำดับดีเอ็นเอของโครโมโซมและไมโตคอนเดรีย EST (แท็กลำดับด่วน): ชิ้นส่วนลำดับ cDNA ที่ได้รับผ่านวิธีการจัดลำดับ ซึ่งสามารถนำไปใช้เพื่อศึกษาการทำงานของยีน HTG (ลำดับจีโนมปริมาณงานสูง): ส่วนสั้นๆ ของลำดับดีเอ็นเอที่สร้างโดยการจัดลำดับปริมาณงานสูง ใช้ในการสร้างกรอบเริ่มต้นของลำดับจีโนม GSS (ลำดับการสำรวจจีโนม): ชิ้นส่วน DNA สุ่มที่ใช้สำหรับการจัดลำดับความครอบคลุมของจีโนม TSA (Transcriptome Shotgun Assembly): ลำดับโดยรวมของทรานสคริปโตมที่ได้จากการรวมและต่อชิ้นส่วน EST WGS (ลำดับปืนลูกซองจีโนมทั้งหมด): ลำดับที่ไม่เป็นระเบียบของจีโนมทั้งหมด ใช้สำหรับการจัดลำดับและการเพิ่มความคิดเห็นของจีโนมทั้งหมดข้อมูลจีโนมเหล่านี้ใช้กันอย่างแพร่หลายในสาขาการวิจัย เช่น การวิจัยการทำงานของยีน การเปรียบเทียบจีโนมและการวิเคราะห์วิวัฒนาการ การพัฒนายาและการวินิจฉัยโรค เป็นต้น นักวิจัยสามารถใช้ข้อมูลเหล่านี้เพื่อวิเคราะห์โครงสร้าง การทำงาน และกลไกการควบคุมของยีน เปิดเผยความแปรปรวนทางพันธุกรรมและกระบวนการวิวัฒนาการของสิ่งมีชีวิต ค้นหาความสัมพันธ์ระหว่างยีนและโรคที่เฉพาะเจาะจง และให้การสนับสนุนการแพทย์เฉพาะบุคคล
3. ฐานข้อมูล NCBI ใดที่สามารถใช้วิเคราะห์ลำดับและโครงสร้างโปรตีนได้ ฐานข้อมูลเหล่านี้ช่วยนักวิจัยดำเนินการวิจัยโปรตีนได้อย่างไร
NCBI มีฐานข้อมูลหลายรายการสำหรับการวิเคราะห์ลำดับและโครงสร้างโปรตีน ต่อไปนี้เป็นฐานข้อมูลที่สำคัญบางส่วน:
UniProt: นี่คือฐานข้อมูลโปรตีนแบบครอบคลุมที่ให้ข้อมูลเกี่ยวกับลำดับโปรตีน โครงสร้าง ฟังก์ชัน และปฏิสัมพันธ์ นักวิจัยสามารถใช้ UniProt เพื่อค้นหาโปรตีนที่สนใจและทำความเข้าใจคุณสมบัติและหน้าที่พื้นฐานของโปรตีนเหล่านั้น Protein Data Bank (PDB): ฐานข้อมูลนี้จัดเก็บข้อมูลโครงสร้างโปรตีนสามมิติจำนวนมากที่กำหนดโดยผลึกศาสตร์ นักวิจัยสามารถใช้ข้อมูลเชิงโครงสร้างใน PDB เพื่อศึกษาโครงสร้างของโปรตีน กลไกการออกฤทธิ์ และอันตรกิริยากับโมเลกุลอื่นๆ ฐานข้อมูล DomAIn ที่อนุรักษ์ไว้ (CDD): ฐานข้อมูลนี้รวบรวมโดเมนการทำงานที่อนุรักษ์ไว้ในลำดับโปรตีนที่รู้จัก และให้ข้อมูลคำอธิบายประกอบโดเมนและข้อมูลการจำแนกประเภท นักวิจัยสามารถใช้ CDD เพื่อวิเคราะห์การรวมโดเมนการทำงานและลักษณะทางโครงสร้างของโปรตีนเพื่อสรุปการทำงานและความคล้ายคลึงกัน ฐานข้อมูลการเชื่อมโยงโครงสร้าง-ฟังก์ชัน (SFLD): ฐานข้อมูลนี้ผสานรวมความสัมพันธ์ระหว่างลำดับโปรตีน โครงสร้าง และฟังก์ชัน และให้คำอธิบายประกอบโดยละเอียดและข้อมูลการจำแนกประเภท นักวิจัยสามารถใช้ SFLD เพื่อสำรวจความสัมพันธ์ระหว่างหน้าที่ของโปรตีนและโครงสร้าง และทำความเข้าใจเกี่ยวกับหน้าที่และวิวัฒนาการของโปรตีนให้ลึกซึ้งยิ่งขึ้นนักวิจัยสามารถรับลำดับโปรตีนและข้อมูลโครงสร้างจำนวนมากผ่านฐานข้อมูลเหล่านี้ และดำเนินการเปรียบเทียบลำดับ การทำนายโครงสร้าง คำอธิบายประกอบการทำงาน การวิเคราะห์ความคล้ายคลึงกัน และการศึกษาอื่นๆ เพื่อสำรวจการทำงานและกลไกการควบคุมของโปรตีนอย่างลึกซึ้ง และให้การวิจัยใน การสนับสนุนสาขาที่เกี่ยวข้อง
ฉันหวังว่าบทความนี้โดยบรรณาธิการของ Downcodes จะช่วยให้คุณเข้าใจฐานข้อมูล NCBI และการประยุกต์ในการวิจัยทางชีวการแพทย์ได้ดีขึ้น หากคุณมีคำถามใด ๆ โปรดอย่าลังเลที่จะถาม!