在 AWS 上執行工作流程的方法有很多。在這裡,我們列出了幾種可能性,每種可能性都適用於不同的研究目標。當您瀏覽下面的各種教學課程時,請考慮如何使用此處列出的其他方法之一更有效地運行該工作流程。如果您不熟悉此處的任何術語或概念,請查看 AWS Jumpstart 頁面。
screen
或作為元資料附加的啟動腳本。有關如何使用 EC2 運行管道的更多信息,請參閱下面的 GWAS 教程。對於許多此類教程,您將需要短期存取金鑰來建立和使用資源,特別是當教程需要「存取金鑰 ID」和「秘密金鑰」時。使用本指南了解如何取得和使用短期存取金鑰。如果您是 NIH 附屬研究人員,換句話說,您不在 NIH 工作,但擁有 Cloud Lab 帳戶,則您將無權存取金鑰。如果您無法完成教程,請透過 [email protected] 聯絡我們尋求協助
另請注意,GPU 機器的成本高於大多數 CPU 機器,因此請務必在使用後關閉這些機器,或套用 EC2 生命週期配置。您也可能會遇到服務配額,以防止您意外使用昂貴的機器類型。如果發生這種情況,並且您仍想使用特定實例類型,請按照以下說明進行操作。
機器學習是人工智慧的一個子領域,專注於演算法和模型的開發,使電腦能夠根據數據進行學習並做出預測或決策,而無需進行明確編程。人工智慧和機器學習演算法正在應用於各種生物醫學研究問題,從圖像分類到基因組變異調用。 AWS 有一長串可用的 AI/ML 教程,我們在此處編制了一個清單。最近的發展重點是生成式人工智慧,包括從文字中提取資訊、將語音轉換為文字以及從文字生成圖像等用例。 Sagemaker Studio 讓使用者快速建立、測試和訓練生成式 AI 模型,並準備好使用 JumpStart 中包含的所有模型。這些模型包括基礎模型、微調模型和特定任務的解決方案。
臨床資訊學,也稱為醫療保健資訊學或醫療資訊學,是一個跨學科領域,它將數據科學應用於醫療保健數據,以改善患者護理、增強臨床流程並促進醫學研究。它通常涉及整合不同的資料類型,包括電子健康記錄、人口統計或環境資料。 AWS 提供兩個隨選研討會,引導您完成 AWS HealthLake 進行人口健康資料分析。第一個研討會將向您展示如何將數據提取到 HealthLake、使用 Athena 查詢這些數據、使用 QuickSight 視覺化這些數據,然後將 FHIR 數據與環境數據結合並視覺化組合數據集。第二次研討會還將數據引入 HealthLake,然後視覺化醫療設備數據,使用人工智慧總結臨床記錄,然後轉錄臨床音訊檔案並進行總結。
下一代基因序列資料儲存在 NCBI 序列讀取存檔 (SRA) 中。您可以使用 SRA 工具包存取這些資料。我們使用此筆記本引導您完成此操作,該筆記本還引導您了解如何設定和搜尋 Athena 表以產生入藏清單。您也可以閱讀本指南以獲取有關可用資料集表的更多資訊。其他範例筆記本可以在此 NCBI 儲存庫中找到。我們特別推薦此筆記本 (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb),其中詳細介紹瞭如何使用 Athena 訪問 SRA 分類分析的結果由於污染、錯誤或樣本本質上屬於宏基因組,該工具通常與使用者輸入的物種名稱不同。
全基因組關聯研究 (GWAS) 是一種大規模研究,分析許多個體的基因組,以確定與性狀、疾病或其他表型相關的常見遺傳變異。
醫學影像分析需要分析大型影像文件,通常需要彈性儲存和加速運算。
RNA-seq 分析是一種高通量定序方法,可測量和表徵基因表現量和轉錄組動態。工作流程通常使用工作流程管理器運行,最終結果通常可以在筆記本中視覺化。
單細胞 RNA 定序 (scRNA-seq) 是一種能夠在單一細胞層級分析基因表現、深入了解細胞異質性、識別稀有細胞類型並揭示複雜生物系統內的細胞動態和功能狀態的技術。
NCBI BLAST (Basic Local Alignment Search Tool) is a widely used bioinformatics program provided by the National Center for Biotechnology Information (NCBI) that compares nucleotide or protein sequences against a large database to identify similar sequences and infer evolutionary relationships, functional annotations, and structural資訊. NCBI 團隊為雲端編寫了一個名為 ElasticBLAST 的 BLAST 版本,您可以在此處閱讀有關它的所有內容。從本質上講,ElasticBLAST 可協助您將 BLAST 作業提交至 AWS Batch 並將結果寫回 S3。請隨意在 Cloud Shell 中嘗試範例教學課程,或嘗試我們的筆記本版本。
您可以在 AWS 上運行多種蛋白質折疊演算法,包括 Alpha Fold。由於資料庫太大,設定通常相當困難,但 AWS 創建了一個 StackFormation 堆疊,可以自動啟動運行 Alpha Fold 和其他蛋白質折疊演算法所需的所有資源。您可以在此處閱讀有關 AWS 資源的信息,並在此處查看 GitHub 頁面。要使其正常運作,您需要按照這些說明修改您的安全群組。您可能還必須向 CloudFormation 正在使用的角色授予額外的權限。如果您遇到困難,請聯絡 [email protected]。您也可以使用本教學執行 ESMFold。
長讀長 DNA 序列分析涉及分析長度通常超過 10,000 個鹼基對 (bp) 的定序讀長,而短讀長定序的讀長約為 150 bp。 Oxford Nanopore 提供了相當完整的筆記本教程,用於處理長讀資料以執行各種操作,包括變異調用、RNAseq、Sars-Cov-2 分析等等。在此處訪問筆記本。這些筆記本期望您在本地運行並訪問 epi2me 筆記本伺服器。要在 Cloud Lab 中運行它們,請跳過連接到伺服器的第一個單元,然後筆記本的其餘部分應該可以正確運行,只需進行一些調整。如果您只是想嘗試筆記型電腦,請不要從這些開始。如果您對長讀序列分析感興趣,則可能需要進行一些故障排除以使它們適應雲端實驗室環境。您甚至可能需要透過調整命令在新筆記本中重寫它們。請隨時聯絡我們的支援團隊尋求協助。
Acceleating Therapeutics for Opportunities in Medicine (ATOM) 聯盟創建了一系列 Jupyter 筆記本,引導您完成 ATOM 藥物發現方法。
這些筆記本是為了在 Google Colab 中運行而創建的,因此如果您在 AWS 中運行它們,則需要進行一些修改。首先,我們建議您使用 Sagemaker Studio Notebook 而不是使用者管理的筆記本,因為它將安裝 Tensorflow 和其他依賴項。請務必將 GPU 連接到您的執行個體(T4 即可)。此外,您還需要註解掉%tensorflow_version 2.x
因為這是 Colab 特定的指令。您還需要根據需要pip install
一些軟體包。如果deepchem
發生錯誤,請嘗試執行pip install --pre deepchem[tensorflow]
和/或pip install --pre deepchem[torch]
。此外,有些筆記本需要 Tensorflow 內核,而有些則需要 Pytorch。您也可能會遇到 Pandas 錯誤,請聯絡 ATOM GitHub 開發人員尋求最佳解決方案,或查看他們的問題。
冷凍電子顯微鏡 (cryoEM) 是結構生物學中使用的一種強大的成像技術,可以以接近原子甚至原子的分辨率可視化生物大分子的結構,例如蛋白質、核酸和大分子複合物。它透過提供生物分子的詳細三維結構徹底改變了結構生物學領域,這對於理解其功能至關重要。
AWS 擁有大量公共數據,您可以將其整合到測試中或在自己的研究中使用。您可以在 AWS 上的開放資料註冊表中存取這些資料集。您可以在其中按一下任何資料集以查看資料的 S3 路徑,以及使用這些資料和教程的出版物(如果有)。為了進行演示,我們可以點擊 gnomad 資料集,然後取得 S3 路徑並透過貼上https://registry.opendata.aws/broad-gnomad/
在命令列查看檔案。