该存储库隶属于 NIH STRIDES Initiative。 STRIDES 旨在利用云的力量来加速生物医学的发现。要了解更多信息,请访问 https://cloud.nih.gov。
NIH 云实验室的目标是让您轻松使用云,以便您可以花更少的时间在管理任务上,而将更多的精力放在研究上。
使用此存储库通过探索链接的资源和逐步完成教程来了解如何使用 Azure。如果您是初学者,我们建议您先从 Cloud Lab 网站上的快速入门部分开始,然后再返回此处。
机器学习是人工智能的一个子领域,专注于算法和模型的开发,使计算机能够根据数据进行学习并做出预测或决策,而无需进行显式编程。人工智能和机器学习算法正在应用于各种生物医学研究问题,从图像分类到基因组变异调用。 Azure 通过 Azure AI Studio 和 Azure 机器学习提供 AI 服务。
请参阅我们的教程套件,详细了解 Azure 上的 Gen AI,其中重点介绍了 Azure AI Studio、Azure OpenAI 和 Azure AI Search 等 Azure 产品以及 Langchain 等外部工具。这些笔记本将引导您了解如何部署、训练和查询模型,以及如何实现检索增强生成 (RAG) 等技术。如果你有兴趣配置模型以处理 csv 或 json 文件等结构化数据,我们创建了教程,引导你了解如何使用 Azure UI 索引 csv 以及如何使用 Azure ML 中的笔记本查询数据库。我们还有另一个教程,可以直接从笔记本运行所有必要的步骤。
Azure 健康数据服务是一组服务,使你能够在 Azure 中存储、处理和分析医疗数据。这些服务旨在帮助组织快速连接不同的健康数据源和格式(例如结构化数据、成像数据和设备数据),并将其标准化以保留在云中。从本质上讲,Azure 健康数据服务能够将数据转换并提取为 FHIR(快速医疗互操作性资源)格式。这使您可以将健康数据从传统格式(例如 HL7v2 或 CDA)或设备专有格式的高频 IoT 数据转换为 FHIR。这样可以更轻松地将 Azure 健康数据服务中存储的数据与 Azure 生态系统中的服务(例如 Azure Synapse Analytics 和 Azure 机器学习 (Azure ML))连接起来。
Azure 健康数据服务包括对用于结构化数据交换的多种健康数据标准的支持,以及部署彼此无缝协作的不同服务类型(FHIR、DICOM 和 MedTech)的多个实例的能力。工作区中部署的服务还共享合规性边界和通用配置设置。该产品可自动扩展以满足工作负载的不同需求,因此您可以花更少的时间管理基础设施,而将更多时间用于从健康数据中生成见解。
通过将 Azure FHIR 服务器中存储的医疗保健数据复制到 Synapse Analytics,研究人员可以利用云规模的数据仓库和分析工具从数据中提取见解并构建可扩展的研究管道。有关如何执行此导出和下游分析的信息,请访问此存储库。
您还可以查看在 Azure 上使用 FHIR 的实践示例,但请注意,您需要提供自己的 VCF 文件,因为教程内容中未提供这些文件。
医学影像分析需要分析大型图像文件,通常需要弹性存储和加速计算。 Microsoft Azure 通过其 Azure Healthcare API 和 Azure 医疗成像解决方案提供基于云的医疗成像分析功能。 Azure 的 DICOM 服务允许使用行业标准 DICOM(医学数字成像和通信)格式在云中安全存储、管理和处理医学图像。 DICOM 服务提供高可用性、灾难恢复和可扩展存储选项等功能,使其成为需要存储、管理和分析大量医学成像数据的管道的理想解决方案。此外,该服务器还与 Azure ML 等其他 Azure 服务集成,方便使用高级机器学习算法执行对象检测、分割和分类等图像分析任务。在此处阅读有关如何部署该服务的信息。
Microsoft 有多个医学成像笔记本,展示了 Azure 机器学习上的不同医学成像用例。这些笔记本演示了各种数据科学技术,例如使用 PyTorch 进行手动模型开发、自动化机器学习以及基于 MLOPS 的示例,用于自动化医疗用例中的机器学习生命周期(包括再培训)。这些笔记本可以在这里找到。确保选择包含 Pytorch 的内核,否则依赖项的安装可能会很困难。另请注意,您需要为大多数笔记本单元使用 GPU VM,但您可以创建多个计算环境并根据需要在它们之间切换。完成后请务必将其关闭。
对于对多模式临床信息学感兴趣的云实验室用户,DICOMcast 提供了将数据从 DICOM 服务同步到 FHIR 服务的能力,允许用户集成临床和影像数据。 DICOMcast 通过支持纵向患者数据的简化视图以及有效创建医学研究、分析和机器学习队列的能力,扩展了健康数据的用例。有关如何使用 DICOMcast 的更多信息,请访问 Microsoft 文档或开源 GitHub 存储库。
对于希望在成像数据上训练深度学习模型的用户来说,InnerEye-DeepLearning (IE-DL) 是 Microsoft 开发的一个工具箱,用于轻松地在 3D 医学图像上训练深度学习模型。它可以通过 Azure 机器学习在本地和云中轻松运行,允许用户对以下各项进行训练和运行推理: • 细分模型 • 分类和回归模型 • 任何 PyTorch Lightning 模型,通过自带模型设置该项目存在于单独的 GitHub 存储库中。
Microsoft 提供了多种与基因组学相关的产品,对许多云实验室用户来说非常有用。有关广泛的概述,请访问 Microsoft Genomics 社区网站。您还可以从此博客中了解不同执行选项的概述,以及使用 AWS Batch 对 Nextflow 进行详细分析。我们在此重点介绍一些关键服务:
全基因组关联研究 (GWAS) 是一种大规模研究,分析许多个体的基因组,以确定与性状、疾病或其他表型相关的常见遗传变异。
NCBI BLAST(基本局部比对搜索工具)是由国家生物技术信息中心 (NCBI) 提供的广泛使用的生物信息学程序,可将核苷酸或蛋白质序列与大型数据库进行比较,以识别相似的序列并推断进化关系、功能注释和结构。信息。
RNA-seq 分析是一种高通量测序方法,可以测量和表征基因表达水平和转录组动态。工作流程通常使用工作流程管理器运行,最终结果通常可以在笔记本中可视化。
单细胞 RNA 测序 (scRNA-seq) 是一种能够在单个细胞水平上分析基因表达、深入了解细胞异质性、识别稀有细胞类型并揭示复杂生物系统内的细胞动态和功能状态的技术。
长读长 DNA 序列分析涉及分析长度通常超过 10,000 个碱基对 (bp) 的测序读长,而短读长测序的读长约为 150 bp。 Oxford Nanopore 提供了相当完整的笔记本教程,用于处理长读数据以执行各种操作,包括变异调用、RNAseq、Sars-Cov-2 分析等等。在此处和 GitHub 上访问笔记本。这些笔记本期望您在本地运行并访问 epi2me 笔记本服务器。要在 Cloud Lab 中运行它们,请跳过连接到服务器的第一个单元,然后笔记本的其余部分应该可以正确运行,只需进行一些调整。 Oxford Nanopore 还提供大量 Nextflow 工作流程,允许您运行各种长读取管道。
这些公开可用的数据集经过整理并可在您的工作流程中使用,可以节省您发现和准备数据的时间。