การเรียกใช้เวิร์กโฟลว์บน GCP มีหลายวิธี ในที่นี้เราจะแสดงรายการความเป็นไปได้บางประการซึ่งแต่ละอย่างอาจใช้ได้ผลกับจุดมุ่งหมายการวิจัยที่แตกต่างกัน ขณะที่คุณดูบทช่วยสอนต่างๆ ด้านล่างนี้ ลองนึกถึงวิธีที่คุณสามารถเรียกใช้เวิร์กโฟลว์นั้นได้อย่างมีประสิทธิภาพมากขึ้นโดยใช้วิธีอื่นที่แสดงไว้ที่นี่
screen
หรือเป็นสคริปต์เริ่มต้นที่แนบมาเป็นข้อมูลเมตาmanaged notebooks
และ user managed notebooks
managed notebooks
มีคุณสมบัติมากกว่าและสามารถกำหนดเวลาได้ แต่ให้คุณควบคุมสภาพแวดล้อม/การติดตั้ง conda น้อยลงการเรียนรู้ของเครื่องเป็นสาขาย่อยของปัญญาประดิษฐ์ที่มุ่งเน้นการพัฒนาอัลกอริธึมและแบบจำลองที่ช่วยให้คอมพิวเตอร์เรียนรู้และคาดการณ์หรือตัดสินใจตามข้อมูลโดยไม่ต้องตั้งโปรแกรมไว้อย่างชัดเจน โดยทั่วไปแมชชีนเลิร์นนิงบน GCP จะเกิดขึ้นภายใน VertexAI คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิงบน GCP ได้ที่ Google Crash Course นี้ สำหรับตัวอย่างเชิงปฏิบัติ ลองใช้โมดูลนี้ที่พัฒนาโดยมหาวิทยาลัยแห่งรัฐซานฟรานซิสโก หรือโมดูลนี้จากมหาวิทยาลัย Arkasas ที่พัฒนาขึ้นสำหรับโครงการ NIGMS Sandbox
เมื่อยุคของ Generative AI (Gen AI) มาถึงแล้ว Google ได้เปิดตัวโฮสต์ของข้อเสนอ Gen AI ภายในชุด Vertex AI ตัวอย่างบางส่วนของสิ่งที่โมเดล AI เจนเนอเรชั่นสามารถทำได้คือการดึงข้อมูลที่ต้องการจากข้อความ การแปลงคำพูดเป็นข้อความ การสร้างรูปภาพจากคำอธิบายและในทางกลับกัน และอื่นๆ อีกมากมาย คอนโซล Vertex AI Studio ของ Vertex AI ช่วยให้ผู้ใช้สามารถสร้าง ทดสอบ และฝึกโมเดล AI ที่สร้างบนคลาวด์ได้อย่างรวดเร็วในสภาพแวดล้อมที่ปลอดภัย ดูภาพรวมของเราในบทช่วยสอนนี้ สตูดิโอยังมีโมเดลที่พร้อมใช้งานทั้งหมดรวมอยู่ใน Model Garden โมเดลเหล่านี้มีตั้งแต่โมเดลพื้นฐาน โมเดลที่ปรับแต่งได้ และโซลูชันเฉพาะงาน
การวิเคราะห์ภาพทางการแพทย์คือการประยุกต์ใช้อัลกอริธึมและเทคนิคการคำนวณเพื่อดึงข้อมูลที่มีความหมายจากภาพทางการแพทย์เพื่อการวินิจฉัย การวางแผนการรักษา และการวิจัย การวิเคราะห์ภาพทางการแพทย์ต้องใช้ไฟล์ภาพขนาดใหญ่ และมักจะเป็นพื้นที่จัดเก็บที่ยืดหยุ่นและการประมวลผลที่รวดเร็ว
ข้อมูลลำดับพันธุกรรมรุ่นต่อไปจะอยู่ใน NCBI Sequence Read Archive (SRA) คุณสามารถเข้าถึงข้อมูลเหล่านี้ได้โดยใช้ SRA Toolkit เราจะอธิบายให้คุณทราบโดยใช้สมุดบันทึกนี้ รวมถึงวิธีใช้ BigQuery เพื่อสร้างรายการการเข้าถึงของคุณ คุณยังสามารถใช้ BigQuery เพื่อสร้างรายการการเข้าถึงสำหรับการดาวน์โหลดโดยใช้คู่มือการตั้งค่านี้และคู่มือการค้นหานี้ สามารถดูสมุดบันทึกตัวอย่างเพิ่มเติมได้ที่ repo ของ NCBI นี้ โดยเฉพาะอย่างยิ่ง เราขอแนะนำสมุดบันทึกนี้ (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb) ซึ่งมีรายละเอียดเพิ่มเติมเกี่ยวกับการใช้ BigQuery เพื่อเข้าถึงผลลัพธ์ของการวิเคราะห์อนุกรมวิธานของ SRA เครื่องมือ ซึ่งมักจะแตกต่างจากชื่อสายพันธุ์ที่ผู้ใช้ป้อนเนื่องจากการปนเปื้อน ข้อผิดพลาด หรือเนื่องจากตัวอย่างมีลักษณะเป็นเมทาโนมิกส์ นอกจากนี้ สมุดบันทึกนี้ยังเจาะลึกเกี่ยวกับการแยกวิเคราะห์ผลลัพธ์ BigQuery และอาจให้แนวคิดดีๆ เกี่ยวกับวิธีค้นหาตัวอย่างจาก SRA การวิเคราะห์ข้อมูลเมตาและอนุกรมวิธานของ SRA อยู่ในตาราง BigQuery แยกกัน คุณสามารถเรียนรู้วิธีรวมทั้งสองตารางโดยใช้ SQL จาก Powerpoint นี้หรือจากบทช่วยสอนของเราที่นี่ สุดท้ายนี้ NCBI ได้เปิดตัวเวิร์กช็อปนี้ซึ่งจะกล่าวถึงแอปพลิเคชัน BigQuery ที่หลากหลายพร้อมชุดข้อมูล NCBI
การเรียกตัวแปรจีโนมเป็นกระบวนการในการระบุและจำแนกลักษณะความแปรผันทางพันธุกรรมจากข้อมูลลำดับดีเอ็นเอเพื่อทำความเข้าใจความแตกต่างในองค์ประกอบทางพันธุกรรมของแต่ละบุคคล
ผลลัพธ์ของเวิร์กโฟลว์การเรียกตัวแปรจีโนมคือไฟล์ในรูปแบบการเรียกตัวแปร (VCF) ไฟล์เหล่านี้มักเป็นไฟล์ข้อมูลที่มีโครงสร้างขนาดใหญ่ซึ่งสามารถค้นหาได้โดยใช้เครื่องมือสืบค้นฐานข้อมูล เช่น Big Query
การศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS) เป็นการตรวจสอบในวงกว้างที่วิเคราะห์จีโนมของบุคคลจำนวนมาก เพื่อระบุความแปรปรวนทางพันธุกรรมทั่วไปที่เกี่ยวข้องกับลักษณะ โรค หรือฟีโนไทป์อื่นๆ
โปรตีโอมิกส์คือการศึกษาโปรตีนทั้งชุดในเซลล์ เนื้อเยื่อ หรือสิ่งมีชีวิต โดยมีจุดมุ่งหมายเพื่อทำความเข้าใจโครงสร้าง การทำงาน และปฏิสัมพันธ์ของโปรตีนเหล่านี้ เพื่อเปิดเผยข้อมูลเชิงลึกเกี่ยวกับกระบวนการทางชีวภาพและโรคต่างๆ แม้ว่าการวิเคราะห์โปรตีโอมิกหลักส่วนใหญ่จะเกิดขึ้นในแพลตฟอร์มซอฟต์แวร์ที่เป็นกรรมสิทธิ์ แต่การวิเคราะห์รองจำนวนมากเกิดขึ้นในสมุดบันทึก Jupyter หรือ R แต่เราได้ยกตัวอย่างไว้ที่นี่:
Custom container
จากนั้นสำหรับการวาง Docker container image
ดังต่อไปนี้: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
การวิเคราะห์ RNA-seq เป็นวิธีการจัดลำดับปริมาณงานสูงที่ช่วยให้สามารถวัดและจำแนกลักษณะของระดับการแสดงออกของยีนและไดนามิกของการถอดเสียง โดยทั่วไปเวิร์กโฟลว์จะทำงานโดยใช้ตัวจัดการเวิร์กโฟลว์ และผลลัพธ์สุดท้ายมักจะแสดงเป็นภาพในสมุดบันทึก
การประกอบถอดเสียงเป็นกระบวนการในการสร้างชุดการถอดเสียง RNA ที่สมบูรณ์ในเซลล์หรือเนื้อเยื่อจากข้อมูลลำดับที่กระจัดกระจาย ให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับการแสดงออกของยีนและการวิเคราะห์เชิงหน้าที่
การจัดลำดับ RNA เซลล์เดี่ยว (scRNA-seq) เป็นเทคนิคที่ช่วยให้สามารถวิเคราะห์การแสดงออกของยีนในระดับเซลล์แต่ละเซลล์ โดยให้ข้อมูลเชิงลึกเกี่ยวกับความหลากหลายของเซลล์ การระบุประเภทเซลล์ที่หายาก และเผยให้เห็นพลวัตของเซลล์และสถานะการทำงานของภายในระบบทางชีววิทยาที่ซับซ้อน
ATAC-seq เป็นเทคนิคที่ช่วยให้นักวิทยาศาสตร์เข้าใจว่า DNA ถูกบรรจุในเซลล์อย่างไร โดยการระบุบริเวณของ DNA ที่สามารถเข้าถึงได้และอาจเกี่ยวข้องกับการควบคุมยีน - โมดูลนี้จะอธิบายวิธีทำงานผ่านเวิร์กโฟลว์ ATACseq และ ATACseq เซลล์เดียวบน Google Cloud โมดูลนี้ได้รับการพัฒนาโดยศูนย์การแพทย์มหาวิทยาลัยเนแบรสกาสำหรับโครงการ NIGMS Sandbox
เนื่องจากเป็นหนึ่งในการดัดแปลงอีพิเจเนติกส์ที่มีจำนวนมากและได้รับการศึกษามาอย่างดี DNA methylation มีบทบาทสำคัญในการพัฒนาเซลล์ปกติ และมีผลกระทบหลายประการต่อการถอดรหัส ความคงตัวของจีโนม และการบรรจุ DNA ภายในเซลล์ Methylseq เป็นเทคนิคในการระบุบริเวณที่มีเมทิลเลตของจีโนม
Metagenomics คือการศึกษาสารพันธุกรรมที่รวบรวมโดยตรงจากตัวอย่างสิ่งแวดล้อม ซึ่งช่วยให้สามารถสำรวจชุมชนจุลินทรีย์ ความหลากหลาย และศักยภาพในการทำงานของพวกมัน โดยไม่จำเป็นต้องเพาะเลี้ยงในห้องปฏิบัติการ - โมดูลนี้จะแนะนำคุณตลอดการดำเนินการวิเคราะห์เมตาโนมิกส์โดยใช้บรรทัดคำสั่งและ Nextflow โมดูลนี้ได้รับการพัฒนาโดยมหาวิทยาลัยเซาท์ดาโกตาโดยเป็นส่วนหนึ่งของโครงการ NIGMS Sandbox
การวิเคราะห์หลายมิติเกี่ยวข้องกับการบูรณาการข้อมูลในรูปแบบต่างๆ (เช่น จีโนม การถอดเสียง ฟีโนไทป์) เพื่อสร้างข้อมูลเชิงลึกเพิ่มเติม
การค้นพบตัวบ่งชี้ทางชีวภาพเป็นกระบวนการในการระบุโมเลกุลหรือคุณลักษณะเฉพาะที่สามารถทำหน้าที่เป็นตัวบ่งชี้กระบวนการทางชีวภาพ โรค หรือการตอบสนองต่อการรักษา ช่วยในการวินิจฉัย การพยากรณ์โรค และการแพทย์เฉพาะบุคคล โดยทั่วไปการค้นพบตัวบ่งชี้ทางชีวภาพจะดำเนินการผ่านการวิเคราะห์ที่ครอบคลุมของข้อมูลประเภทต่างๆ เช่น จีโนมิกส์ โปรตีโอมิกส์ เมตาโบโลมิกส์ และข้อมูลทางคลินิก โดยใช้เทคนิคขั้นสูงรวมถึงการคัดกรองที่มีปริมาณงานสูง ชีวสารสนเทศศาสตร์ และการวิเคราะห์ทางสถิติเพื่อระบุรูปแบบหรือลายเซ็นที่สร้างความแตกต่างระหว่างสุขภาพที่ดีและ บุคคลที่เป็นโรคหรือผู้เผชิญเหตุและผู้ไม่ตอบสนองต่อการรักษาเฉพาะทาง
NCBI BLAST (เครื่องมือค้นหาการจัดแนวท้องถิ่นขั้นพื้นฐาน) เป็นโปรแกรมชีวสารสนเทศที่ใช้กันอย่างแพร่หลายโดยศูนย์ข้อมูลเทคโนโลยีชีวภาพแห่งชาติ (NCBI) ซึ่งเปรียบเทียบลำดับนิวคลีโอไทด์หรือโปรตีนกับฐานข้อมูลขนาดใหญ่เพื่อระบุลำดับที่คล้ายกันและอนุมานความสัมพันธ์เชิงวิวัฒนาการ คำอธิบายประกอบเชิงฟังก์ชัน และโครงสร้าง ข้อมูล.
การวิเคราะห์ลำดับดีเอ็นเอที่อ่านแบบยาวเกี่ยวข้องกับการวิเคราะห์การอ่านลำดับซึ่งโดยทั่วไปจะมีความยาวมากกว่า 10,000 คู่เบส (bp) เมื่อเทียบกับลำดับการอ่านแบบสั้นที่การอ่านจะมีความยาวประมาณ 150 bp Oxford Nanopore มีบทเรียนสอนการใช้งานโน้ตบุ๊กที่ค่อนข้างครบครันสำหรับการจัดการข้อมูลที่อ่านมานานเพื่อทำสิ่งต่างๆ รวมถึงการเรียกตัวแปร, RNAseq, การวิเคราะห์ Sars-Cov-2 และอื่นๆ อีกมากมาย คุณสามารถค้นหารายการและคำอธิบายของสมุดบันทึกได้ที่นี่ หรือโคลน repo GitHub โปรดทราบว่าสมุดบันทึกเหล่านี้คาดหวังให้คุณใช้งานภายในเครื่องและเข้าถึงเซิร์ฟเวอร์สมุดบันทึก epi2me หากต้องการเรียกใช้ใน Cloud Lab ให้ข้ามเซลล์แรกที่เชื่อมต่อกับเซิร์ฟเวอร์ จากนั้นโน้ตบุ๊กที่เหลือจะทำงานได้อย่างถูกต้อง โดยมีการปรับแต่งเล็กน้อย
กลุ่มความร่วมมือ Accelerating Therapeutics for Opportunities in Medicine (ATOM) ได้สร้างชุดสมุดบันทึก Jupyter ที่จะแนะนำคุณเกี่ยวกับแนวทาง ATOM ในการค้นคว้ายา
สมุดบันทึกเหล่านี้สร้างขึ้นเพื่อทำงานใน Google Colab ดังนั้นหากคุณเรียกใช้ใน Google Cloud คุณจะต้องทำการแก้ไขเล็กน้อย ขั้นแรก เราขอแนะนำให้คุณใช้สมุดบันทึกที่มีการจัดการโดย Google แทนที่จะเป็นสมุดบันทึกที่จัดการโดยผู้ใช้ เพียงเพราะสมุดบันทึกที่มีการจัดการโดย Google ได้ติดตั้ง Tensorflow และการอ้างอิงอื่นๆ ไว้แล้ว อย่าลืมแนบ GPU เข้ากับอินสแตนซ์ของคุณ (T4 ก็ใช้ได้) นอกจากนี้ คุณจะต้องใส่ความคิดเห็น %tensorflow_version 2.x
เนื่องจากเป็นคำสั่งเฉพาะของ Colab คุณจะต้อง pip install
แพ็คเกจบางอย่างตามความจำเป็น หากคุณได้รับข้อผิดพลาดกับ deepchem
ให้ลองเรียกใช้ pip install --pre deepchem[tensorflow]
และ/หรือ pip install --pre deepchem[torch]
นอกจากนี้ โน้ตบุ๊กบางรุ่นจะต้องใช้เคอร์เนล Tensorflow ในขณะที่บางรุ่นต้องใช้ Pytorch คุณอาจพบข้อผิดพลาดของ Pandas โปรดติดต่อนักพัฒนา ATOM GitHub เพื่อหาแนวทางแก้ไขปัญหาที่ดีที่สุด
คุณสามารถโต้ตอบกับ Google Batch ได้โดยตรงเพื่อส่งคำสั่ง หรือโดยทั่วไปแล้วคุณสามารถโต้ตอบกับ Google Batch ผ่านทางกลไกการประสานเช่น Nextflow และ Cromwell เป็นต้น เรามีบทช่วยสอนที่ใช้ Google Batch โดยใช้ Nextflow โดยที่เราเรียกใช้ไปป์ไลน์ nf-core Methylseq เช่นกัน หลายอย่างจาก NIGMS Sandbox รวมถึงชุดประกอบการถอดเสียง, มัลติโอมิกส์, เมทิลซีคิว และเมตาเจโนมิกส์
Life Science API เลิกใช้งานแล้วใน GCP และจะใช้บนแพลตฟอร์มไม่ได้อีกต่อไปภายในวันที่ 8 กรกฎาคม 2025 เราขอแนะนำให้ใช้ Google Batch แทน ในตอนนี้ คุณยังคงโต้ตอบกับ Life Sciences API ได้โดยตรงเพื่อส่งคำสั่ง หรือโดยทั่วไปแล้ว คุณสามารถโต้ตอบกับ API ดังกล่าวผ่านกลไกการจัดการเช่น Snakemake ได้ ณ ขณะนี้ตัวจัดการเวิร์กโฟลว์นี้รองรับเฉพาะ Life Sciences API เท่านั้น
Google มีชุดข้อมูลสาธารณะจำนวนมากที่คุณสามารถใช้เพื่อการทดสอบได้ สามารถดูได้ที่นี่และเข้าถึงได้ผ่าน BigQuery หรือจากที่เก็บข้อมูลบนคลาวด์โดยตรง ตัวอย่างเช่น หากต้องการดูจีโนม 1,000 เฟส 3 ที่บรรทัดคำสั่ง ให้พิมพ์ gsutil ls gs://genomics-public-data/1000-genomes-phase-3