มีหลายวิธีในการรันเวิร์กโฟลว์บน AWS ในที่นี้เราจะแสดงรายการความเป็นไปได้บางประการซึ่งแต่ละอย่างอาจใช้ได้ผลกับจุดมุ่งหมายการวิจัยที่แตกต่างกัน ขณะที่คุณดูบทช่วยสอนต่างๆ ด้านล่างนี้ ลองนึกถึงวิธีที่คุณสามารถเรียกใช้เวิร์กโฟลว์นั้นได้อย่างมีประสิทธิภาพมากขึ้นโดยใช้วิธีอื่นที่แสดงไว้ที่นี่ หากคุณไม่คุ้นเคยกับข้อกำหนดหรือแนวคิดใดๆ ที่นี่ โปรดตรวจสอบหน้า AWS Jumpstart
screen
หรือเป็นสคริปต์เริ่มต้นที่แนบเป็นข้อมูลเมตา ดูบทช่วยสอน GWAS ด้านล่างสำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการรันไปป์ไลน์โดยใช้ EC2สำหรับบทช่วยสอนจำนวนมาก คุณจะต้องมีคีย์การเข้าถึงระยะสั้นเพื่อสร้างและใช้ทรัพยากร โดยเฉพาะอย่างยิ่งเมื่อใดก็ตามที่บทช่วยสอนเรียกใช้ "ID คีย์การเข้าถึง" และ "คีย์ลับ" ใช้คู่มือนี้เพื่ออธิบายวิธีการรับและใช้คีย์การเข้าถึงระยะสั้น หากคุณเป็นนักวิจัยในเครือ NIH กล่าวคือ คุณไม่ได้ทำงานที่ NIH แต่มีบัญชี Cloud Lab คุณจะไม่สามารถเข้าถึงกุญแจได้ หากมีบทช่วยสอนที่คุณไม่สามารถทำได้ โปรดติดต่อเราเพื่อขอความช่วยเหลือที่ [email protected]
โปรดทราบว่าเครื่อง GPU มีราคาสูงกว่าเครื่อง CPU ส่วนใหญ่ ดังนั้นอย่าลืมปิดเครื่องเหล่านี้หลังการใช้งาน หรือใช้การกำหนดค่าวงจรการใช้งาน EC2 คุณอาจพบโควต้าการบริการเพื่อปกป้องคุณจากการใช้งานเครื่องจักรราคาแพงโดยไม่ตั้งใจ หากเกิดเหตุการณ์เช่นนี้ และคุณยังคงต้องการใช้อินสแตนซ์บางประเภท ให้ทำตามคำแนะนำเหล่านี้
การเรียนรู้ของเครื่องเป็นสาขาย่อยของปัญญาประดิษฐ์ที่มุ่งเน้นการพัฒนาอัลกอริธึมและแบบจำลองที่ช่วยให้คอมพิวเตอร์เรียนรู้และคาดการณ์หรือตัดสินใจตามข้อมูลโดยไม่ต้องตั้งโปรแกรมไว้อย่างชัดเจน อัลกอริธึมปัญญาประดิษฐ์และการเรียนรู้ของเครื่องถูกนำไปใช้กับคำถามการวิจัยทางชีวการแพทย์ที่หลากหลาย ตั้งแต่การจำแนกภาพไปจนถึงการเรียกตัวแปรจีโนม AWS มีรายการบทช่วยสอน AI/ML มากมาย และเราได้รวบรวมรายชื่อไว้ที่นี่ การพัฒนาล่าสุดมุ่งเน้นไปที่ generative AI รวมถึงกรณีการใช้งาน เช่น การแยกข้อมูลจากข้อความ การแปลงคำพูดเป็นข้อความ และการสร้างรูปภาพจากข้อความ Sagemaker Studio ช่วยให้ผู้ใช้สามารถสร้าง ทดสอบ และฝึกโมเดล AI ที่สร้างได้อย่างรวดเร็ว และมีโมเดลที่พร้อมใช้งานทั้งหมดที่มีอยู่ใน JumpStart โมเดลเหล่านี้มีตั้งแต่โมเดลพื้นฐาน โมเดลที่ปรับแต่งได้ และโซลูชันเฉพาะงาน
สารสนเทศทางคลินิกหรือที่เรียกว่าสารสนเทศด้านการดูแลสุขภาพหรือสารสนเทศทางการแพทย์เป็นสาขาสหวิทยาการที่ใช้วิทยาศาสตร์ข้อมูลกับข้อมูลด้านการดูแลสุขภาพเพื่อปรับปรุงการดูแลผู้ป่วย ปรับปรุงกระบวนการทางคลินิก และอำนวยความสะดวกในการวิจัยทางการแพทย์ โดยมักจะเกี่ยวข้องกับการบูรณาการข้อมูลประเภทต่างๆ รวมถึงบันทึกสุขภาพอิเล็กทรอนิกส์ ข้อมูลประชากร หรือสิ่งแวดล้อม AWS เสนอเวิร์กช็อปตามความต้องการสองรายการที่จะแนะนำคุณเกี่ยวกับ AWS HealthLake สำหรับการวิเคราะห์ข้อมูลสุขภาพประชากร เวิร์กชอปแรกนี้จะแสดงให้คุณเห็นถึงวิธีการนำเข้าข้อมูลไปยัง HealthLake, สืบค้นข้อมูลเหล่านั้นโดยใช้ Athena, แสดงภาพข้อมูลเหล่านี้โดยใช้ QuickSight จากนั้นรวมข้อมูล FHIR กับข้อมูลด้านสิ่งแวดล้อม และแสดงภาพชุดข้อมูลที่รวมกัน เวิร์กช็อปครั้งที่สองยังนำเข้าข้อมูลลงใน HealthLake จากนั้นแสดงภาพข้อมูลอุปกรณ์ทางการแพทย์ ใช้ AI เพื่อสรุปบันทึกทางคลินิก จากนั้นจึงถอดเสียงไฟล์เสียงทางคลินิกและสรุป
ข้อมูลลำดับพันธุกรรมรุ่นต่อไปจะอยู่ใน NCBI Sequence Read Archive (SRA) คุณสามารถเข้าถึงข้อมูลเหล่านี้ได้โดยใช้ SRA Toolkit เราจะอธิบายให้คุณทราบโดยใช้สมุดบันทึกนี้ ซึ่งจะแนะนำคุณตลอดทั้งวิธีการตั้งค่าและค้นหาตาราง Athena เพื่อสร้างรายการภาคยานุวัติ คุณยังสามารถอ่านคู่มือนี้เพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับตารางชุดข้อมูลที่มีอยู่ สามารถดูสมุดบันทึกตัวอย่างเพิ่มเติมได้ที่ repo ของ NCBI นี้ โดยเฉพาะอย่างยิ่ง เราขอแนะนำสมุดบันทึกนี้ (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb) ซึ่งมีรายละเอียดเพิ่มเติมเกี่ยวกับการใช้ Athena เพื่อเข้าถึงผลลัพธ์ของการวิเคราะห์อนุกรมวิธานของ SRA เครื่องมือ ซึ่งมักจะแตกต่างจากชื่อสายพันธุ์ที่ผู้ใช้ป้อนเนื่องจากการปนเปื้อน ข้อผิดพลาด หรือเนื่องจากตัวอย่างมีลักษณะเป็นเมทาโนมิกส์
การศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS) เป็นการตรวจสอบในวงกว้างที่วิเคราะห์จีโนมของบุคคลจำนวนมาก เพื่อระบุความแปรปรวนทางพันธุกรรมทั่วไปที่เกี่ยวข้องกับลักษณะ โรค หรือฟีโนไทป์อื่นๆ
การวิเคราะห์ภาพทางการแพทย์จำเป็นต้องมีการวิเคราะห์ไฟล์ภาพขนาดใหญ่ และมักต้องใช้พื้นที่จัดเก็บที่ยืดหยุ่นและการประมวลผลที่รวดเร็ว
การวิเคราะห์ RNA-seq เป็นวิธีการจัดลำดับปริมาณงานสูงที่ช่วยให้สามารถวัดและจำแนกลักษณะของระดับการแสดงออกของยีนและไดนามิกของการถอดเสียง โดยทั่วไปเวิร์กโฟลว์จะทำงานโดยใช้ตัวจัดการเวิร์กโฟลว์ และผลลัพธ์สุดท้ายมักจะแสดงเป็นภาพในสมุดบันทึก
การจัดลำดับ RNA เซลล์เดี่ยว (scRNA-seq) เป็นเทคนิคที่ช่วยให้สามารถวิเคราะห์การแสดงออกของยีนในระดับเซลล์แต่ละเซลล์ โดยให้ข้อมูลเชิงลึกเกี่ยวกับความหลากหลายของเซลล์ การระบุประเภทเซลล์ที่หายาก และเผยให้เห็นพลวัตของเซลล์และสถานะการทำงานของภายในระบบทางชีววิทยาที่ซับซ้อน
NCBI BLAST (เครื่องมือค้นหาการจัดแนวท้องถิ่นขั้นพื้นฐาน) เป็นโปรแกรมชีวสารสนเทศที่ใช้กันอย่างแพร่หลายโดยศูนย์ข้อมูลเทคโนโลยีชีวภาพแห่งชาติ (NCBI) ซึ่งเปรียบเทียบลำดับนิวคลีโอไทด์หรือโปรตีนกับฐานข้อมูลขนาดใหญ่เพื่อระบุลำดับที่คล้ายกันและอนุมานความสัมพันธ์เชิงวิวัฒนาการ คำอธิบายประกอบเชิงฟังก์ชัน และโครงสร้าง ข้อมูล. ทีม NCBI ได้เขียน BLAST เวอร์ชันสำหรับคลาวด์ที่เรียกว่า ElasticBLAST และคุณสามารถอ่านทั้งหมดได้ที่นี่ โดยพื้นฐานแล้ว ElasticBLAST ช่วยให้คุณส่งงาน BLAST ไปยัง AWS Batch และเขียนผลลัพธ์กลับไปที่ S3 ทดลองดูบทแนะนำตัวอย่างใน Cloud Shell ได้ตามใจชอบ หรือลองใช้เวอร์ชันโน้ตบุ๊กของเรา
คุณสามารถรันอัลกอริธึมการพับโปรตีนได้หลายแบบ รวมถึง Alpha Fold บน AWS เนื่องจากฐานข้อมูลมีขนาดใหญ่มาก การตั้งค่าจึงมักจะค่อนข้างยาก แต่ AWS ได้สร้างสแต็ก StackFormation ที่ทำให้ทรัพยากรทั้งหมดที่จำเป็นสำหรับการรัน Alpha Fold และอัลกอริธึมการพับโปรตีนอื่นๆ เป็นไปโดยอัตโนมัติ คุณสามารถอ่านเกี่ยวกับทรัพยากร AWS ได้ที่นี่ และดูหน้า GitHub ที่นี่ เพื่อให้สิ่งนี้ใช้งานได้ คุณจะต้องแก้ไขกลุ่มความปลอดภัยของคุณโดยทำตามคำแนะนำเหล่านี้ คุณอาจต้องให้สิทธิ์เพิ่มเติมแก่บทบาทที่ CloudFormation ใช้อยู่ หากคุณติดขัด โปรดติดต่อ [email protected] คุณยังสามารถเรียกใช้ ESMfold โดยใช้บทช่วยสอนนี้
การวิเคราะห์ลำดับดีเอ็นเอที่อ่านแบบยาวเกี่ยวข้องกับการวิเคราะห์การอ่านลำดับซึ่งโดยทั่วไปจะมีความยาวมากกว่า 10,000 คู่เบส (bp) เมื่อเทียบกับลำดับการอ่านแบบสั้นที่การอ่านจะมีความยาวประมาณ 150 bp Oxford Nanopore มีบทเรียนสอนการใช้งานโน้ตบุ๊กที่ค่อนข้างครบถ้วนสำหรับการจัดการข้อมูลที่อ่านมานานเพื่อทำสิ่งต่างๆ รวมถึงการเรียกตัวแปร, RNAseq, การวิเคราะห์ Sars-Cov-2 และอื่นๆ อีกมากมาย เข้าถึงสมุดบันทึกได้ที่นี่ สมุดบันทึกเหล่านี้คาดหวังให้คุณใช้งานภายในเครื่องและเข้าถึงเซิร์ฟเวอร์สมุดบันทึก epi2me หากต้องการเรียกใช้ใน Cloud Lab ให้ข้ามเซลล์แรกที่เชื่อมต่อกับเซิร์ฟเวอร์ จากนั้นโน้ตบุ๊กที่เหลือจะทำงานได้อย่างถูกต้อง โดยมีการปรับแต่งเล็กน้อย หากคุณต้องการลองใช้โน้ตบุ๊ก อย่าเริ่มด้วยสิ่งเหล่านี้ หากคุณสนใจการวิเคราะห์ลำดับแบบอ่านยาว อาจจำเป็นต้องแก้ไขปัญหาบางอย่างเพื่อปรับสิ่งเหล่านี้ให้เข้ากับสภาพแวดล้อม Cloud Lab คุณอาจต้องเขียนใหม่ในสมุดบันทึกใหม่โดยการปรับคำสั่ง โปรดติดต่อทีมสนับสนุนของเราเพื่อขอความช่วยเหลือ
กลุ่มความร่วมมือ Accelerating Therapeutics for Opportunities in Medicine (ATOM) ได้สร้างชุดสมุดบันทึก Jupyter ที่จะแนะนำคุณเกี่ยวกับแนวทาง ATOM ในการค้นคว้ายา
สมุดบันทึกเหล่านี้สร้างขึ้นเพื่อให้ทำงานใน Google Colab ดังนั้นหากคุณเรียกใช้ใน AWS คุณจะต้องทำการแก้ไขเล็กน้อย อันดับแรก เราขอแนะนำให้คุณใช้ Sagemaker Studio Notebook แทนสมุดบันทึกที่จัดการโดยผู้ใช้ เพียงเพราะจะมี Tensorflow และการอ้างอิงอื่นๆ ติดตั้งอยู่ อย่าลืมแนบ GPU เข้ากับอินสแตนซ์ของคุณ (T4 ก็ใช้ได้) นอกจากนี้ คุณจะต้องใส่ความคิดเห็น %tensorflow_version 2.x
เนื่องจากเป็นคำสั่งเฉพาะของ Colab คุณจะต้อง pip install
แพ็คเกจบางอย่างตามความจำเป็น หากคุณได้รับข้อผิดพลาดกับ deepchem
ให้ลองเรียกใช้ pip install --pre deepchem[tensorflow]
และ/หรือ pip install --pre deepchem[torch]
นอกจากนี้ โน้ตบุ๊กบางรุ่นจะต้องใช้เคอร์เนล Tensorflow ในขณะที่บางรุ่นต้องใช้ Pytorch คุณอาจพบข้อผิดพลาดของ Pandas ติดต่อนักพัฒนา ATOM GitHub เพื่อขอวิธีแก้ปัญหาที่ดีที่สุด หรือตรวจสอบปัญหาของพวกเขา
กล้องจุลทรรศน์ไครโออิเล็กตรอน (cryoEM) เป็นเทคนิคการถ่ายภาพอันทรงพลังที่ใช้ในชีววิทยาเชิงโครงสร้างเพื่อแสดงภาพโครงสร้างของโมเลกุลขนาดใหญ่ทางชีววิทยา เช่น โปรตีน กรดนิวคลีอิก และสารประกอบเชิงซ้อนของโมเลกุลขนาดใหญ่ ที่ความละเอียดใกล้เคียงอะตอมหรือแม้แต่อะตอม ได้ปฏิวัติสาขาชีววิทยาเชิงโครงสร้างโดยการจัดเตรียมโครงสร้างสามมิติของชีวโมเลกุลที่มีรายละเอียด ซึ่งมีความสำคัญอย่างยิ่งต่อการทำความเข้าใจหน้าที่ของพวกมัน
AWS มีข้อมูลสาธารณะจำนวนมากที่คุณสามารถรวมเข้ากับการทดสอบหรือใช้ในการวิจัยของคุณเองได้ คุณสามารถเข้าถึงชุดข้อมูลเหล่านี้ได้ที่ Registry of Open Data บน AWS ที่นั่น คุณสามารถคลิกที่ชุดข้อมูลใดๆ เพื่อดูเส้นทาง S3 ไปยังข้อมูล รวมถึงสิ่งพิมพ์ที่ใช้ข้อมูลและบทช่วยสอนเหล่านั้น หากมี เพื่อสาธิต เราสามารถคลิกชุดข้อมูล gnomad จากนั้นรับเส้นทาง S3 และดูไฟล์ที่บรรทัดคำสั่งโดยวาง https://registry.opendata.aws/broad-gnomad/