Existem várias maneiras de executar fluxos de trabalho na AWS. Aqui listamos algumas possibilidades, cada uma das quais pode funcionar para diferentes objetivos de pesquisa. Ao percorrer os vários tutoriais abaixo, pense em como você poderia executar esse fluxo de trabalho com mais eficiência usando um dos outros métodos listados aqui. Se você não estiver familiarizado com algum dos termos ou conceitos aqui, revise a página AWS Jumpstart.
screen
ou como um script de inicialização anexado como metadados. Consulte o tutorial do GWAS abaixo para obter mais informações sobre como executar um pipeline usando EC2.Para muitos desses tutoriais, você precisará de Chaves de Acesso de Curto Prazo para criar e usar recursos, principalmente sempre que um tutorial exigir "ID da chave de acesso" e "chave secreta". Use este guia para obter uma explicação sobre como obter e usar chaves de acesso de curto prazo. Se você for um pesquisador afiliado ao NIH, ou seja, não trabalhar no NIH, mas tiver uma conta no Cloud Lab, não terá acesso às chaves. Se houver um tutorial que você não consegue concluir, entre em contato conosco para obter ajuda em [email protected]
Observe também que as máquinas GPU custam mais do que a maioria das máquinas CPU, portanto, certifique-se de desligá-las após o uso ou aplique uma configuração de ciclo de vida EC2. Você também pode encontrar cotas de serviço para protegê-lo do uso acidental de tipos de máquinas caras. Se isso acontecer e você ainda quiser usar um determinado tipo de instância, siga estas instruções.
O aprendizado de máquina é um subcampo da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos que permitem aos computadores aprender e fazer previsões ou decisões com base em dados, sem serem explicitamente programados. Algoritmos de inteligência artificial e aprendizado de máquina estão sendo aplicados a uma variedade de questões de pesquisa biomédica, desde classificação de imagens até identificação de variantes genômicas. A AWS tem uma longa lista de tutoriais de IA/ML disponíveis e compilamos uma lista aqui. O desenvolvimento mais recente concentra-se na IA generativa, incluindo casos de uso como extração de informações de texto, transformação de fala em texto e geração de imagens a partir de texto. O Sagemaker Studio permite ao usuário criar, testar e treinar rapidamente modelos generativos de IA e tem modelos prontos para usar, todos contidos no JumpStart. Esses modelos variam de modelos básicos, modelos de ajuste fino e soluções específicas para tarefas.
A informática clínica, também conhecida como informática em saúde ou informática médica, é um campo interdisciplinar que aplica a ciência de dados aos dados de saúde para melhorar o atendimento ao paciente, aprimorar os processos clínicos e facilitar a pesquisa médica. Freqüentemente, envolve a integração de diversos tipos de dados, incluindo registros eletrônicos de saúde, dados demográficos ou ambientais. A AWS oferece dois workshops sob demanda que orientam você no AWS HealthLake para análise de dados de saúde da população. Este primeiro workshop mostra como ingerir dados no HealthLake, consultá-los usando o Athena, visualizá-los usando o QuickSight e, em seguida, unir dados FHIR com dados ambientais e visualizar o conjunto de dados combinado. O segundo workshop também ingere dados no HealthLake, depois visualiza dados de dispositivos médicos, usa IA para resumir notas clínicas e, em seguida, transcreve arquivos de áudio clínicos e os resume.
Os dados de sequência genética da próxima geração estão armazenados no NCBI Sequence Read Archive (SRA). Você pode acessar esses dados usando o SRA Toolkit. Orientamos você nesse processo usando este notebook, que também mostra como configurar e pesquisar tabelas do Athena para gerar uma lista de acesso. Você também pode ler este guia para obter mais informações sobre as tabelas de conjuntos de dados disponíveis. Cadernos de exemplo adicionais podem ser encontrados neste repositório NCBI. Em particular, recomendamos este notebook (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb), que detalha mais sobre o uso do Athena para acessar os resultados da Análise Taxonômica SRA Ferramenta, que muitas vezes difere do nome da espécie inserido pelo usuário devido a contaminação, erro ou devido ao fato de as amostras serem de natureza metagenômica.
Os estudos de associação genômica ampla (GWAS) são investigações em larga escala que analisam os genomas de muitos indivíduos para identificar variantes genéticas comuns associadas a características, doenças ou outros fenótipos.
A análise de imagens médicas requer a análise de grandes arquivos de imagem e muitas vezes requer armazenamento elástico e computação acelerada.
A análise de RNA-seq é um método de sequenciamento de alto rendimento que permite a medição e caracterização dos níveis de expressão gênica e da dinâmica do transcriptoma. Os fluxos de trabalho normalmente são executados usando gerenciadores de fluxo de trabalho, e os resultados finais muitas vezes podem ser visualizados em cadernos.
O sequenciamento de RNA unicelular (scRNA-seq) é uma técnica que permite a análise da expressão gênica no nível celular individual, fornecendo insights sobre a heterogeneidade celular, identificando tipos de células raras e revelando a dinâmica celular e os estados funcionais em sistemas biológicos complexos.
NCBI BLAST (Basic Local Alignment Search Tool) é um programa de bioinformática amplamente utilizado fornecido pelo Centro Nacional de Informações sobre Biotecnologia (NCBI) que compara sequências de nucleotídeos ou proteínas com um grande banco de dados para identificar sequências semelhantes e inferir relações evolutivas, anotações funcionais e estruturais Informação. A equipe do NCBI escreveu uma versão do BLAST para a nuvem chamada ElasticBLAST, e você pode ler tudo sobre ela aqui. Essencialmente, o ElasticBLAST ajuda você a enviar trabalhos do BLAST para o AWS Batch e gravar os resultados de volta no S3. Sinta-se à vontade para experimentar o tutorial de exemplo no Cloud Shell ou experimente nossa versão para notebook.
Você pode executar vários algoritmos de dobramento de proteínas, incluindo Alpha Fold na AWS. Como os bancos de dados são muito grandes, a configuração normalmente é bastante difícil, mas a AWS criou uma pilha StackFormation que automatiza a ativação de todos os recursos necessários para executar Alpha Fold e outros algoritmos de dobramento de proteínas. Você pode ler sobre os recursos da AWS aqui e visualizar a página do GitHub aqui. Para que isso funcione, você precisará modificar seus grupos de segurança seguindo estas instruções. Provavelmente, você também terá que conceder permissões adicionais à função que o CloudFormation está usando. Se você tiver dúvidas, entre em contato com [email protected]. Você também pode executar o ESMFold usando este tutorial.
A análise de sequência de DNA de leitura longa envolve a análise de leituras de sequenciamento normalmente com mais de 10 mil pares de bases (pb) de comprimento, em comparação com o sequenciamento de leitura curta, onde as leituras têm cerca de 150 pb de comprimento. Oxford Nanopore tem uma oferta bastante completa de tutoriais de notebook para lidar com dados de leitura longa para fazer uma variedade de coisas, incluindo chamada de variantes, RNAseq, análise de Sars-Cov-2 e muito mais. Acesse os cadernos aqui. Esses notebooks esperam que você esteja executando localmente e acessando o servidor de notebook epi2me. Para executá-los no Cloud Lab, pule a primeira célula que se conecta ao servidor e então o restante do notebook deverá rodar corretamente, com alguns ajustes. Se você está apenas querendo experimentar notebooks, não comece com eles. Se você estiver interessado em análises de sequências de leitura longas, talvez seja necessária alguma solução de problemas para adaptá-las ao ambiente do Cloud Lab. Você pode até precisar reescrevê-los em um caderno novo, adaptando os comandos. Sinta-se à vontade para entrar em contato com nossa equipe de suporte para obter ajuda.
O Consórcio Accelerating Therapeutics for Opportunities in Medicine (ATOM) criou uma série de cadernos Jupyter que orientam você na abordagem ATOM para descoberta de medicamentos.
Esses notebooks foram criados para rodar no Google Colab, portanto, se você executá-los na AWS, precisará fazer algumas modificações. Primeiro, recomendamos que você use um notebook Sagemaker Studio em vez de um notebook gerenciado pelo usuário, simplesmente porque ele terá o Tensorflow e outras dependências instaladas. Certifique-se de anexar uma GPU à sua instância (T4 é adequado). Além disso, você precisará comentar %tensorflow_version 2.x
pois é um comando específico do Colab. Você também precisará pip install
alguns pacotes conforme necessário. Se você receber erros com deepchem
, tente executar pip install --pre deepchem[tensorflow]
e/ou pip install --pre deepchem[torch]
. Além disso, alguns notebooks exigirão um kernel Tensorflow, enquanto outros exigirão Pytorch. Você também pode encontrar um erro do Pandas, entrar em contato com os desenvolvedores do ATOM GitHub para obter a melhor solução ou revisar seus problemas.
A microscopia crioeletrônica (cryoEM) é uma poderosa técnica de imagem usada em biologia estrutural para visualizar as estruturas de macromoléculas biológicas, como proteínas, ácidos nucléicos e grandes complexos moleculares, em resolução quase atômica ou mesmo atômica. Ele revolucionou o campo da biologia estrutural ao fornecer estruturas tridimensionais detalhadas de biomoléculas, o que é crucial para a compreensão de suas funções.
A AWS tem muitos dados públicos que você pode integrar em seus testes ou usar em suas próprias pesquisas. Você pode acessar esses conjuntos de dados no Registro de Dados Abertos na AWS. Lá você pode clicar em qualquer um dos conjuntos de dados para visualizar o caminho do S3 para os dados, bem como publicações que usaram esses dados e tutoriais, se disponíveis. Para demonstrar, podemos clicar no conjunto de dados gnomad, obter o caminho S3 e visualizar os arquivos na linha de comando colando https://registry.opendata.aws/broad-gnomad/
.