該儲存庫隸屬於 NIH STRIDES Initiative。 STRIDES 旨在利用雲端的力量來加速生物醫學的發現。要了解更多信息,請訪問 https://cloud.nih.gov。
NIH 雲實驗室的目標是讓您輕鬆使用雲,以便您可以花更少的時間在管理任務上,而將更多的精力放在研究上。
使用此儲存庫透過探索連結的資源和逐步完成教學課程來了解如何使用 Azure。如果您是初學者,我們建議您先從 Cloud Lab 網站上的快速入門部分開始,然後再回到此處。
機器學習是人工智慧的一個子領域,專注於演算法和模型的開發,使電腦能夠根據數據進行學習並做出預測或決策,而無需進行明確編程。人工智慧和機器學習演算法正在應用於各種生物醫學研究問題,從圖像分類到基因組變異調用。 Azure 透過 Azure AI Studio 和 Azure 機器學習提供 AI 服務。
請參閱我們的教學套件,以詳細了解 Azure 上的 Gen AI,其中重點介紹了 Azure AI Studio、Azure OpenAI 和 Azure AI Search 等 Azure 產品以及 Langchain 等外部工具。這些筆記本將引導您了解如何部署、訓練和查詢模型,以及如何實現檢索增強生成 (RAG) 等技術。如果你有興趣配置模型以處理 csv 或 json 文件等結構化數據,我們創建了教程,引導你了解如何使用 Azure UI 索引 csv 以及如何使用 Azure ML 中的筆記本查詢資料庫。我們還有另一個教程,可以直接從筆記本運行所有必要的步驟。
Azure 健康資料服務是一組服務,讓你能夠在 Azure 中儲存、處理和分析醫療資料。這些服務旨在幫助組織快速連接不同的健康資料來源和格式(例如結構化資料、影像資料和設備資料),並將其標準化以保留在雲端。從本質上講,Azure 健康數據服務能夠將數據轉換並提取為 FHIR(快速醫療互通性資源)格式。這可讓您將健康資料從傳統格式(例如 HL7v2 或 CDA)或裝置專有格式的高頻 IoT 資料轉換為 FHIR。這樣可以更輕鬆地將 Azure 健康資料服務中儲存的資料與 Azure 生態系統中的服務(例如 Azure Synapse Analytics 和 Azure 機器學習 (Azure ML))連接起來。
Azure 健康資料服務包括對用於結構化資料交換的多種健康資料標準的支持,以及部署彼此無縫協作的不同服務類型(FHIR、DICOM 和 MedTech)的多個實例的能力。工作區中部署的服務也共用合規性邊界和通用配置設定。該產品可自動擴展以滿足工作負載的不同需求,因此您可以花更少的時間管理基礎設施,而將更多時間用於從健康數據中產生見解。
透過將 Azure FHIR 伺服器中儲存的醫療保健資料複製到 Synapse Analytics,研究人員可以利用雲端規模的資料倉儲和分析工具從資料中提取見解並建立可擴展的研究管道。有關如何執行此導出和下游分析的信息,請訪問此存儲庫。
您也可以查看在 Azure 上使用 FHIR 的實作範例,但請注意,您需要提供自己的 VCF 文件,因為教學內容中未提供這些文件。
醫學影像分析需要分析大型影像文件,通常需要彈性儲存和加速運算。 Microsoft Azure 透過其 Azure Healthcare API 和 Azure 醫療影像解決方案提供基於雲端的醫療影像分析功能。 Azure 的 DICOM 服務允許使用業界標準 DICOM(醫學數位影像和通訊)格式在雲端安全儲存、管理和處理醫學影像。 DICOM 服務提供高可用性、災難復原和可擴展儲存選項等功能,使其成為需要儲存、管理和分析大量醫學影像資料的管道的理想解決方案。此外,該伺服器還與 Azure ML 等其他 Azure 服務集成,方便使用進階機器學習演算法執行物件偵測、分割和分類等影像分析任務。在此閱讀有關如何部署該服務的資訊。
Microsoft 有多個醫學影像筆記本,展示了 Azure 機器學習上的不同醫學影像用例。這些筆記本展示了各種資料科學技術,例如使用 PyTorch 進行手動模型開發、自動化機器學習以及基於 MLOPS 的範例,用於自動化醫療用例中的機器學習生命週期(包括再培訓)。這些筆記本可以在這裡找到。確保選擇包含 Pytorch 的內核,否則依賴項的安裝可能會很困難。另請注意,您需要為大多數筆記型電腦單元使用 GPU VM,但您可以建立多個運算環境並根據需要在它們之間切換。完成後請務必將其關閉。
對於對多模式臨床資訊學感興趣的雲端實驗室用戶,DICOMcast 提供了將資料從 DICOM 服務同步到 FHIR 服務的能力,允許用戶整合臨床和影像資料。 DICOMcast 透過支援縱向病患資料的簡化視圖以及有效建立醫學研究、分析和機器學習隊列的能力,擴展了健康資料的用例。有關如何使用 DICOMcast 的更多信息,請訪問 Microsoft 文件或開源 GitHub 存儲庫。
對於希望在影像資料上訓練深度學習模型的使用者來說,InnerEye-DeepLearning (IE-DL) 是 Microsoft 開發的一個工具箱,用於輕鬆地在 3D 醫學影像上訓練深度學習模型。它可以透過 Azure 機器學習在本地和雲端中輕鬆運行,允許使用者對以下各項進行訓練和運行推理: • 細分模型 • 分類和回歸模型 • 任何 PyTorch Lightning 模型,透過自帶模型設定該項目存在於單獨的GitHub 儲存庫中。
Microsoft 提供了多種與基因組學相關的產品,對許多雲端實驗室使用者來說非常有用。有關廣泛的概述,請造訪 Microsoft Genomics 社群網站。您也可以從此部落格中了解不同執行選項的概述,以及使用 AWS Batch 對 Nextflow 進行詳細分析。我們在此重點介紹一些關鍵服務:
全基因組關聯研究 (GWAS) 是一種大規模研究,分析許多個體的基因組,以確定與性狀、疾病或其他表型相關的常見遺傳變異。
NCBI BLAST (Basic Local Alignment Search Tool) is a widely used bioinformatics program provided by the National Center for Biotechnology Information (NCBI) that compares nucleotide or protein sequences against a large database to identify similar sequences and infer evolutionary relationships, functional annotations, and structural資訊.
RNA-seq 分析是一種高通量定序方法,可測量和表徵基因表現量和轉錄組動態。工作流程通常使用工作流程管理器運行,最終結果通常可以在筆記本中視覺化。
單細胞 RNA 定序 (scRNA-seq) 是一種能夠在單一細胞層級分析基因表現、深入了解細胞異質性、識別稀有細胞類型並揭示複雜生物系統內的細胞動態和功能狀態的技術。
長讀長 DNA 序列分析涉及分析長度通常超過 10,000 個鹼基對 (bp) 的定序讀長,而短讀長定序的讀長約為 150 bp。 Oxford Nanopore 提供了相當完整的筆記本教程,用於處理長讀資料以執行各種操作,包括變異調用、RNAseq、Sars-Cov-2 分析等等。在此處和 GitHub 上存取筆記本。這些筆記本期望您在本地運行並訪問 epi2me 筆記本伺服器。要在 Cloud Lab 中運行它們,請跳過連接到伺服器的第一個單元,然後筆記本的其餘部分應該可以正確運行,只需進行一些調整。 Oxford Nanopore 還提供大量 Nextflow 工作流程,讓您可以運行各種長讀取管道。
這些公開可用的資料集經過整理並可在您的工作流程中使用,可以節省您發現和準備資料的時間。