Existem várias maneiras de executar fluxos de trabalho no GCP. Aqui listamos algumas possibilidades, cada uma das quais pode funcionar para diferentes objetivos de pesquisa. Ao percorrer os vários tutoriais abaixo, pense em como você poderia executar esse fluxo de trabalho com mais eficiência usando um dos outros métodos listados aqui.
screen
ou como um script de inicialização anexado como metadados.managed notebooks
e user managed notebooks
. Os managed notebooks
possuem mais recursos e podem ser agendados, mas oferecem menos controle para ambientes/instalações conda.O aprendizado de máquina é um subcampo da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos que permitem aos computadores aprender e fazer previsões ou decisões com base em dados, sem serem explicitamente programados. O aprendizado de máquina no GCP geralmente ocorre no VertexAI. Você pode aprender mais sobre aprendizado de máquina no GCP neste curso intensivo do Google. Para exemplos práticos, experimente este módulo desenvolvido pela San Francisco State University ou este da University of Arkasas desenvolvido para o NIGMS Sandbox Project.
Agora que a era da IA generativa (Gen AI) chegou, o Google lançou uma série de ofertas de Gen AI dentro do pacote Vertex AI. Alguns exemplos do que os modelos generativos de IA são capazes são extrair informações desejadas de texto, transformar fala em texto, gerar imagens a partir de descrições e vice-versa, e muito mais. O console Vertex AI Studio da Vertex AI permite que o usuário crie, teste e treine rapidamente modelos de IA generativos na nuvem em um ambiente seguro. Consulte nossa visão geral neste tutorial. O estúdio também possui modelos prontos para uso, todos contidos no Model Garden. Esses modelos variam de modelos básicos, modelos de ajuste fino e soluções específicas para tarefas.
A análise de imagens médicas é a aplicação de algoritmos e técnicas computacionais para extrair informações significativas de imagens médicas para diagnóstico, planejamento de tratamento e fins de pesquisa. A análise de imagens médicas requer grandes arquivos de imagem e, muitas vezes, armazenamento elástico e computação acelerada.
Os dados de sequência genética da próxima geração estão armazenados no NCBI Sequence Read Archive (SRA). Você pode acessar esses dados usando o SRA Toolkit. Orientamos você neste tutorial, incluindo como usar o BigQuery para gerar sua lista de acessos. Você também pode usar o BigQuery para criar uma lista de acessos para download usando este guia de configuração e este guia de consulta. Cadernos de exemplo adicionais podem ser encontrados neste repositório NCBI. Em particular, recomendamos este notebook (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb), que detalha mais sobre como usar o BigQuery para acessar os resultados da Análise Taxonômica SRA Ferramenta, que muitas vezes difere do nome da espécie inserido pelo usuário devido a contaminação, erro ou devido ao fato de as amostras serem de natureza metagenômica. Além disso, este notebook se aprofunda na análise dos resultados do BigQuery e pode fornecer algumas boas ideias sobre como pesquisar amostras do SRA. Os metadados SRA e as análises de taxonomia estão em tabelas separadas do BigQuery. Você pode aprender como unir essas duas tabelas usando SQL neste Powerpoint ou em nosso tutorial aqui. Por fim, o NCBI lançou este workshop que aborda uma ampla variedade de aplicativos do BigQuery com conjuntos de dados do NCBI.
A chamada de variante genômica é o processo de identificação e caracterização de variações genéticas a partir de dados de sequenciamento de DNA para compreender as diferenças na composição genética de um indivíduo.
A saída dos fluxos de trabalho de chamada de variante genômica é um arquivo no formato de chamada de variante (VCF). Geralmente, são arquivos de dados grandes e estruturados que podem ser pesquisados usando ferramentas de consulta de banco de dados, como o Big Query.
Os estudos de associação genômica ampla (GWAS) são investigações em larga escala que analisam os genomas de muitos indivíduos para identificar variantes genéticas comuns associadas a características, doenças ou outros fenótipos.
Proteômica é o estudo de todo o conjunto de proteínas em uma célula, tecido ou organismo, com o objetivo de compreender sua estrutura, função e interações para descobrir insights sobre processos biológicos e doenças. Embora a maioria das análises proteômicas primárias ocorram em plataformas de software proprietárias, muitas análises secundárias acontecem em notebooks Jupyter ou R, damos vários exemplos aqui:
Custom container
e, em seguida, para Docker container image
cole o seguinte: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.A análise de RNA-seq é um método de sequenciamento de alto rendimento que permite a medição e caracterização dos níveis de expressão gênica e da dinâmica do transcriptoma. Os fluxos de trabalho normalmente são executados usando gerenciadores de fluxo de trabalho, e os resultados finais muitas vezes podem ser visualizados em cadernos.
A montagem do transcriptoma é o processo de reconstrução do conjunto completo de transcritos de RNA em uma célula ou tecido a partir de dados de sequenciamento fragmentados, fornecendo informações valiosas sobre a expressão gênica e a análise funcional.
O sequenciamento de RNA unicelular (scRNA-seq) é uma técnica que permite a análise da expressão gênica no nível celular individual, fornecendo insights sobre a heterogeneidade celular, identificando tipos de células raras e revelando a dinâmica celular e os estados funcionais em sistemas biológicos complexos.
ATAC-seq é uma técnica que permite aos cientistas compreender como o DNA é empacotado nas células, identificando as regiões do DNA que são acessíveis e potencialmente envolvidas na regulação genética. -Este módulo orienta você sobre como trabalhar com um fluxo de trabalho ATACseq e ATACseq de célula única no Google Cloud. O módulo foi desenvolvido pelo Centro Médico da Universidade de Nebraska para o Projeto NIGMS Sandbox.
Como uma das modificações epigenéticas mais abundantes e bem estudadas, a metilação do DNA desempenha um papel essencial no desenvolvimento celular normal e tem vários efeitos na transcrição, na estabilidade do genoma e no empacotamento do DNA dentro das células. Mylseq é uma técnica para identificar regiões metiladas do genoma.
Metagenômica é o estudo do material genético coletado diretamente de amostras ambientais, permitindo a exploração de comunidades microbianas, sua diversidade e seu potencial funcional, sem a necessidade de cultivo em laboratório. -Este módulo orienta você na condução de uma análise metagenômica usando linha de comando e Nextflow. O módulo foi desenvolvido pela Universidade de Dakota do Sul como parte do NIGMS Sandbox Project.
A análise multiômica envolve a integração de dados entre modalidades (por exemplo, genômica, transcriptômica, fenotípica) para gerar insights aditivos.
A descoberta de biomarcadores é o processo de identificação de moléculas ou características específicas que podem servir como indicadores de processos biológicos, doenças ou respostas ao tratamento, auxiliando no diagnóstico, prognóstico e medicina personalizada. A descoberta de biomarcadores é normalmente conduzida por meio de análise abrangente de vários tipos de dados, como genômica, proteômica, metabolômica e dados clínicos, usando técnicas avançadas, incluindo triagem de alto rendimento, bioinformática e análise estatística para identificar padrões ou assinaturas que diferenciam entre saudáveis e indivíduos doentes, ou respondedores e não respondedores a tratamentos específicos.
NCBI BLAST (Basic Local Alignment Search Tool) é um programa de bioinformática amplamente utilizado fornecido pelo Centro Nacional de Informações sobre Biotecnologia (NCBI) que compara sequências de nucleotídeos ou proteínas com um grande banco de dados para identificar sequências semelhantes e inferir relações evolutivas, anotações funcionais e estruturais Informação.
A análise de sequência de DNA de leitura longa envolve a análise de leituras de sequenciamento normalmente com mais de 10 mil pares de bases (pb) de comprimento, em comparação com o sequenciamento de leitura curta, onde as leituras têm cerca de 150 pb de comprimento. Oxford Nanopore tem uma oferta bastante completa de tutoriais de notebook para lidar com dados de leitura longa para fazer uma variedade de coisas, incluindo chamada de variantes, RNAseq, análise de Sars-Cov-2 e muito mais. Você pode encontrar uma lista e uma descrição dos notebooks aqui ou clonar o repositório GitHub. Observe que esses notebooks esperam que você esteja executando localmente e acessando o servidor de notebook epi2me. Para executá-los no Cloud Lab, pule a primeira célula que se conecta ao servidor e então o restante do notebook deverá rodar corretamente, com alguns ajustes.
O Consórcio Accelerating Therapeutics for Opportunities in Medicine (ATOM) criou uma série de cadernos Jupyter que orientam você na abordagem ATOM para descoberta de medicamentos.
Esses notebooks foram criados para rodar no Google Colab, portanto, se você executá-los no Google Cloud, precisará fazer algumas modificações. Primeiro, recomendamos que você use um notebook gerenciado pelo Google em vez de um notebook gerenciado pelo usuário, simplesmente porque os notebooks gerenciados pelo Google já possuem o Tensorflow e outras dependências instaladas. Certifique-se de anexar uma GPU à sua instância (T4 é adequado). Além disso, você precisará comentar %tensorflow_version 2.x
pois é um comando específico do Colab. Você também precisará pip install
alguns pacotes conforme necessário. Se você receber erros com deepchem
, tente executar pip install --pre deepchem[tensorflow]
e/ou pip install --pre deepchem[torch]
. Além disso, alguns notebooks exigirão um kernel Tensorflow, enquanto outros exigirão Pytorch. Você também pode encontrar um erro do Pandas. Entre em contato com os desenvolvedores do ATOM GitHub para obter a melhor solução para esse problema.
Você pode interagir com o Google Batch diretamente para enviar comandos ou, mais comumente, você pode interagir com ele por meio de mecanismos de orquestração como Nextflow e Cromwell, etc. Temos tutoriais que utilizam o Google Batch usando Nextflow, onde executamos o pipeline nf-core Methylseq, também como vários do NIGMS Sandbox, incluindo montagem de transcriptoma, multiômica, metilseq e metagenômica.
A API Life Science está depreciada no GCP e não estará mais disponível na plataforma até 8 de julho de 2025. Recomendamos usar o Google Batch. Por enquanto, você ainda pode interagir diretamente com a API de Ciências Biológicas para enviar comandos ou, mais comumente, pode interagir com ela por meio de mecanismos de orquestração como o Snakemake. A partir de agora, esse gerenciador de fluxo de trabalho oferece suporte apenas à API de Ciências Biológicas.
O Google tem muitos conjuntos de dados públicos disponíveis que você pode usar para testes. Eles podem ser visualizados aqui e acessados via BigQuery ou diretamente do Cloud Bucket. Por exemplo, para visualizar os Genomas 1k da Fase 3 na linha de comando, digite gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.