在 AWS 上运行工作流程的方法有很多。在这里,我们列出了几种可能性,每种可能性都适用于不同的研究目标。当您浏览下面的各种教程时,请考虑如何使用此处列出的其他方法之一更有效地运行该工作流程。如果您不熟悉此处的任何术语或概念,请查看 AWS Jumpstart 页面。
screen
或作为作为元数据附加的启动脚本。有关如何使用 EC2 运行管道的更多信息,请参阅下面的 GWAS 教程。对于其中许多教程,您将需要短期访问密钥来创建和使用资源,特别是当教程需要“访问密钥 ID”和“秘密密钥”时。使用本指南了解如何获取和使用短期访问密钥。如果您是 NIH 附属研究人员,换句话说,您不在 NIH 工作,但拥有 Cloud Lab 帐户,则您将无权访问密钥。如果您无法完成教程,请通过 [email protected] 联系我们寻求帮助
另请注意,GPU 机器的成本高于大多数 CPU 机器,因此请务必在使用后关闭这些机器,或应用 EC2 生命周期配置。您还可能会遇到服务配额,以防止您意外使用昂贵的机器类型。如果发生这种情况,并且您仍想使用特定实例类型,请按照以下说明进行操作。
机器学习是人工智能的一个子领域,专注于算法和模型的开发,使计算机能够根据数据进行学习并做出预测或决策,而无需进行显式编程。人工智能和机器学习算法正在应用于各种生物医学研究问题,从图像分类到基因组变异调用。 AWS 有一长串可用的 AI/ML 教程,我们在此处编制了一个列表。最近的发展重点是生成式人工智能,包括从文本中提取信息、将语音转换为文本以及从文本生成图像等用例。 Sagemaker Studio 允许用户快速创建、测试和训练生成式 AI 模型,并准备好使用 JumpStart 中包含的所有模型。这些模型包括基础模型、微调模型和特定于任务的解决方案。
临床信息学,也称为医疗保健信息学或医学信息学,是一个跨学科领域,它将数据科学应用于医疗保健数据,以改善患者护理、增强临床流程并促进医学研究。它通常涉及整合不同的数据类型,包括电子健康记录、人口统计或环境数据。 AWS 提供两个按需研讨会,引导您完成 AWS HealthLake 进行人口健康数据分析。第一个研讨会将向您展示如何将数据提取到 HealthLake、使用 Athena 查询这些数据、使用 QuickSight 可视化这些数据,然后将 FHIR 数据与环境数据结合起来并可视化组合数据集。第二次研讨会还将数据引入 HealthLake,然后可视化医疗设备数据,使用 AI 总结临床记录,然后转录临床音频文件并进行总结。
下一代基因序列数据存储在 NCBI 序列读取存档 (SRA) 中。您可以使用 SRA 工具包访问这些数据。我们使用此笔记本引导您完成此操作,该笔记本还引导您了解如何设置和搜索 Athena 表以生成入藏列表。您还可以阅读本指南以获取有关可用数据集表的更多信息。其他示例笔记本可以在此 NCBI 存储库中找到。我们特别推荐此笔记本 (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb),其中详细介绍了如何使用 Athena 访问 SRA 分类分析的结果由于污染、错误或样本本质上属于宏基因组,该工具通常与用户输入的物种名称不同。
全基因组关联研究 (GWAS) 是一种大规模研究,分析许多个体的基因组,以确定与性状、疾病或其他表型相关的常见遗传变异。
医学影像分析需要分析大型图像文件,通常需要弹性存储和加速计算。
RNA-seq 分析是一种高通量测序方法,可以测量和表征基因表达水平和转录组动态。工作流程通常使用工作流程管理器运行,最终结果通常可以在笔记本中可视化。
单细胞 RNA 测序 (scRNA-seq) 是一种能够在单个细胞水平上分析基因表达、深入了解细胞异质性、识别稀有细胞类型并揭示复杂生物系统内的细胞动态和功能状态的技术。
NCBI BLAST(基本局部比对搜索工具)是由国家生物技术信息中心 (NCBI) 提供的一种广泛使用的生物信息学程序,可将核苷酸或蛋白质序列与大型数据库进行比较,以识别相似的序列并推断进化关系、功能注释和结构。信息。 NCBI 团队为云编写了一个名为 ElasticBLAST 的 BLAST 版本,您可以在此处阅读有关它的所有内容。从本质上讲,ElasticBLAST 可帮助您将 BLAST 作业提交到 AWS Batch 并将结果写回 S3。请随意在 Cloud Shell 中尝试示例教程,或尝试我们的笔记本版本。
您可以在 AWS 上运行多种蛋白质折叠算法,包括 Alpha Fold。由于数据库太大,设置通常相当困难,但 AWS 创建了一个 StackFormation 堆栈,可以自动启动运行 Alpha Fold 和其他蛋白质折叠算法所需的所有资源。您可以在此处阅读有关 AWS 资源的信息,并在此处查看 GitHub 页面。要使其正常工作,您需要按照这些说明修改您的安全组。您可能还必须向 CloudFormation 正在使用的角色授予额外的权限。如果您遇到困难,请联系 [email protected]。您还可以使用本教程运行 ESMFold。
长读长 DNA 序列分析涉及分析长度通常超过 10,000 个碱基对 (bp) 的测序读长,而短读长测序的读长约为 150 bp。 Oxford Nanopore 提供了相当完整的笔记本教程,用于处理长读数据以执行各种操作,包括变体调用、RNAseq、Sars-Cov-2 分析等等。在此处访问笔记本。这些笔记本期望您在本地运行并访问 epi2me 笔记本服务器。要在 Cloud Lab 中运行它们,请跳过连接到服务器的第一个单元,然后笔记本的其余部分应该可以正确运行,只需进行一些调整。如果您只是想尝试笔记本电脑,请不要从这些开始。如果您对长读序列分析感兴趣,则可能需要进行一些故障排除以使它们适应云实验室环境。您甚至可能需要通过调整命令在新笔记本中重写它们。请随时联系我们的支持团队寻求帮助。
Acceleating Therapeutics for Opportunities in Medicine (ATOM) 联盟创建了一系列 Jupyter 笔记本,可引导您完成 ATOM 药物发现方法。
这些笔记本是为了在 Google Colab 中运行而创建的,因此如果您在 AWS 中运行它们,则需要进行一些修改。首先,我们建议您使用 Sagemaker Studio Notebook 而不是用户管理的笔记本,因为它将安装 Tensorflow 和其他依赖项。请务必将 GPU 连接到您的实例(T4 即可)。此外,您还需要注释掉%tensorflow_version 2.x
因为这是 Colab 特定的命令。您还需要根据需要pip install
一些软件包。如果deepchem
出现错误,请尝试运行pip install --pre deepchem[tensorflow]
和/或pip install --pre deepchem[torch]
。此外,一些笔记本需要 Tensorflow 内核,而另一些则需要 Pytorch。您还可能会遇到 Pandas 错误,请联系 ATOM GitHub 开发人员寻求最佳解决方案,或查看他们的问题。
冷冻电子显微镜 (cryoEM) 是结构生物学中使用的一种强大的成像技术,可以以接近原子甚至原子的分辨率可视化生物大分子的结构,例如蛋白质、核酸和大分子复合物。它通过提供生物分子的详细三维结构彻底改变了结构生物学领域,这对于理解其功能至关重要。
AWS 拥有大量公共数据,您可以将其集成到测试中或在自己的研究中使用。您可以在 AWS 上的开放数据注册表中访问这些数据集。您可以在其中单击任何数据集来查看数据的 S3 路径,以及使用这些数据和教程的出版物(如果有)。为了进行演示,我们可以单击 gnomad 数据集,然后获取 S3 路径并通过粘贴https://registry.opendata.aws/broad-gnomad/
在命令行查看文件。