在 GCP 上运行工作流程的方法有很多。在这里,我们列出了几种可能性,每种可能性都适用于不同的研究目标。当您浏览下面的各种教程时,请考虑如何使用此处列出的其他方法之一更有效地运行该工作流程。
screen
或作为作为元数据附加的启动脚本。managed notebooks
和user managed notebooks
之间现在存在差异。 managed notebooks
具有更多功能并且可以进行计划,但对 conda 环境/安装的控制较少。机器学习是人工智能的一个子领域,专注于算法和模型的开发,使计算机能够根据数据进行学习并做出预测或决策,而无需进行显式编程。 GCP 上的机器学习通常发生在 VertexAI 中。您可以通过此 Google 速成课程了解有关 GCP 机器学习的更多信息。如需实际操作示例,请尝试旧金山州立大学开发的这个模块或阿卡萨斯大学为 NIGMS 沙盒项目开发的模块。
现在生成式 AI (Gen AI) 时代已经到来,Google 在 Vertex AI 套件中发布了一系列 Gen AI 产品。生成式人工智能模型的一些示例包括从文本中提取所需信息、将语音转换为文本、根据描述生成图像,反之亦然等等。 Vertex AI 的 Vertex AI Studio 控制台允许用户在安全可靠的环境中在云上快速创建、测试和训练生成式 AI 模型,请参阅本教程中的概述。该工作室还拥有现成的模型,全部包含在模型花园中。这些模型包括基础模型、微调模型和特定于任务的解决方案。
医学图像分析是应用计算算法和技术从医学图像中提取有意义的信息,以用于诊断、治疗计划和研究目的。医学图像分析需要大型图像文件,通常需要弹性存储和加速计算。
下一代基因序列数据存储在 NCBI 序列读取存档 (SRA) 中。您可以使用 SRA 工具包访问这些数据。我们使用此笔记本引导您完成此过程,包括如何使用 BigQuery 生成入藏列表。您还可以使用 BigQuery 创建可供下载的馆藏列表,并使用此设置指南和此查询指南。其他示例笔记本可以在此 NCBI 存储库中找到。我们特别推荐此笔记本 (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb),其中详细介绍了如何使用 BigQuery 访问 SRA 分类分析的结果由于污染、错误或样本本质上属于宏基因组,该工具通常与用户输入的物种名称不同。此外,本笔记本深入探讨了 BigQuery 结果的解析,并可能为您提供一些有关如何从 SRA 搜索示例的好主意。 SRA 元数据和分类分析位于单独的 BigQuery 表中,您可以从此 Powerpoint 或我们的教程中了解如何使用 SQL 连接这两个表。最后,NCBI 发布了此研讨会,介绍了使用 NCBI 数据集的各种 BigQuery 应用程序。
基因组变异识别是从 DNA 测序数据中识别和表征遗传变异的过程,以了解个体基因构成的差异。
基因组变异调用工作流程的输出是变异调用格式 (VCF) 的文件。这些通常是大型结构化数据文件,可以使用 Big Query 等数据库查询工具进行搜索。
全基因组关联研究 (GWAS) 是一种大规模研究,分析许多个体的基因组,以确定与性状、疾病或其他表型相关的常见遗传变异。
蛋白质组学是对细胞、组织或生物体中整套蛋白质的研究,旨在了解它们的结构、功能和相互作用,以揭示生物过程和疾病的见解。尽管大多数主要蛋白质组分析发生在专有软件平台中,但许多二次分析发生在 Jupyter 或 R 笔记本中,我们在此给出几个示例:
Custom container
,然后为Docker container image
粘贴以下内容: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
。RNA-seq 分析是一种高通量测序方法,可以测量和表征基因表达水平和转录组动态。工作流程通常使用工作流程管理器运行,最终结果通常可以在笔记本中可视化。
转录组组装是根据片段测序数据重建细胞或组织中完整的 RNA 转录本的过程,为基因表达和功能分析提供有价值的见解。
单细胞 RNA 测序 (scRNA-seq) 是一种能够在单个细胞水平上分析基因表达、深入了解细胞异质性、识别稀有细胞类型并揭示复杂生物系统内的细胞动态和功能状态的技术。
ATAC-seq 技术使科学家能够通过识别可接近并可能参与基因调控的 DNA 区域来了解 DNA 在细胞中的包装方式。 -本模块将引导您了解如何在 Google Cloud 上完成 ATACseq 和单细胞 ATACseq 工作流程。该模块由内布拉斯加大学医学中心为 NIGMS 沙箱项目开发。
作为最丰富和研究最充分的表观遗传修饰之一,DNA 甲基化在正常细胞发育中发挥着重要作用,并对细胞内的转录、基因组稳定性和 DNA 包装产生多种影响。 Mmethylseq 是一种识别基因组甲基化区域的技术。
宏基因组学是对直接从环境样本中收集的遗传物质进行研究,从而能够探索微生物群落、其多样性及其功能潜力,而无需实验室培养。 - 该模块将引导您使用命令行和 Nextflow 进行宏基因组分析。该模块由南达科他大学开发,作为 NIGMS 沙箱项目的一部分。
多组学分析涉及跨模式(例如基因组、转录组、表型)整合数据以产生附加见解。
生物标志物发现是识别特定分子或特征的过程,这些分子或特征可以作为生物过程、疾病或治疗反应的指标,有助于诊断、预后和个性化医疗。生物标志物的发现通常通过对基因组学、蛋白质组学、代谢组学和临床数据等各种类型的数据进行综合分析来进行,使用包括高通量筛选、生物信息学和统计分析在内的先进技术来识别区分健康和健康人群的模式或特征。患病个体,或对特定治疗有反应者和无反应者。
NCBI BLAST(基本局部比对搜索工具)是由国家生物技术信息中心 (NCBI) 提供的广泛使用的生物信息学程序,可将核苷酸或蛋白质序列与大型数据库进行比较,以识别相似的序列并推断进化关系、功能注释和结构。信息。
长读长 DNA 序列分析涉及分析长度通常超过 10,000 个碱基对 (bp) 的测序读长,而短读长测序的读长约为 150 bp。 Oxford Nanopore 提供了相当完整的笔记本教程,用于处理长读数据以执行各种操作,包括变异调用、RNAseq、Sars-Cov-2 分析等等。您可以在此处找到笔记本的列表和描述,或克隆 GitHub 存储库。请注意,这些笔记本期望您在本地运行并访问 epi2me 笔记本服务器。要在 Cloud Lab 中运行它们,请跳过连接到服务器的第一个单元,然后笔记本的其余部分应该可以正确运行,只需进行一些调整。
Acceleating Therapeutics for Opportunities in Medicine (ATOM) 联盟创建了一系列 Jupyter 笔记本,可引导您完成 ATOM 药物发现方法。
这些笔记本是为了在 Google Colab 中运行而创建的,因此如果您在 Google Cloud 中运行它们,则需要进行一些修改。首先,我们建议您使用 Google 托管笔记本而不是用户管理笔记本,因为 Google 托管笔记本已经安装了 Tensorflow 和其他依赖项。请务必将 GPU 连接到您的实例(T4 即可)。此外,您还需要注释掉%tensorflow_version 2.x
因为这是 Colab 特定的命令。您还需要根据需要pip install
一些软件包。如果deepchem
出现错误,请尝试运行pip install --pre deepchem[tensorflow]
和/或pip install --pre deepchem[torch]
。此外,一些笔记本需要 Tensorflow 内核,而另一些则需要 Pytorch。您还可能遇到 Pandas 错误,请联系 ATOM GitHub 开发人员以获取此问题的最佳解决方案。
您可以直接与 Google Batch 交互以提交命令,或者更常见的是,您可以通过 Nextflow 和 Cromwell 等编排引擎与其交互。我们有使用 Nextflow 来利用 Google Batch 的教程,我们还运行 nf-core Mmethylseq 管道NIGMS 沙箱中的几个项目包括转录组组装、多组学、甲基测序和宏基因组学。
Life Science API 在 GCP 上已折旧,到 2025 年 7 月 8 日将不再在该平台上提供,我们建议改用 Google Batch。目前,您仍然可以直接与生命科学 API 交互以提交命令,或者更常见的是,您可以通过 Snakemake 等编排引擎与其交互,目前该工作流管理器仅支持生命科学 API。
Google 有很多可用的公共数据集,您可以将其用于测试。这些可以在此处查看,并且可以通过 BigQuery 或直接从云存储桶访问。例如,要在命令行中查看第 3 阶段 1k 基因组,请输入gsutil ls gs://genomics-public-data/1000-genomes-phase-3
。