Este repositório se enquadra na Iniciativa NIH STRIDES. O STRIDES pretende aproveitar o poder da nuvem para acelerar as descobertas biomédicas. Para saber mais, visite https://cloud.nih.gov.
O objetivo do NIH Cloud Lab é tornar a nuvem fácil e acessível para você, para que você possa gastar menos tempo em tarefas administrativas e se concentrar mais na pesquisa.
Use este repositório para aprender como usar o Azure explorando os recursos vinculados e percorrendo os tutoriais. Se você é iniciante, sugerimos que comece com a seção inicial no site do Cloud Lab antes de retornar aqui.
O aprendizado de máquina é um subcampo da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos que permitem aos computadores aprender e fazer previsões ou decisões com base em dados, sem serem explicitamente programados. Algoritmos de inteligência artificial e aprendizado de máquina estão sendo aplicados a uma variedade de questões de pesquisa biomédica, desde classificação de imagens até identificação de variantes genômicas. O Azure oferece serviços de IA por meio do Azure AI Studio e do Azure Machine Learning.
Consulte nosso conjunto de tutoriais para saber mais sobre Gen AI no Azure que destacam produtos Azure como Azure AI Studio, Azure OpenAI e Azure AI Search e ferramentas externas como Langchain. Esses notebooks orientam você sobre como implantar, treinar e consultar modelos, bem como implementar técnicas como Geração Aumentada de Recuperação (RAG). Se você estiver interessado em configurar um modelo para trabalhar com dados estruturados como arquivos csv ou json, criamos tutoriais que orientam você sobre como indexar seu csv usando a UI do Azure e consultar seu banco de dados usando um notebook no Azure ML. Também temos outro tutorial que executa todas as etapas necessárias diretamente de um notebook.
Azure Health Data Services é um conjunto de serviços que permite armazenar, processar e analisar dados médicos no Azure. Esses serviços são projetados para ajudar as organizações a conectar rapidamente fontes e formatos de dados de saúde diferentes, como dados estruturados, de imagem e de dispositivos, e normalizá-los para serem persistidos na nuvem. Basicamente, o Azure Health Data Services possui a capacidade de transformar e ingerir dados no formato FHIR (Fast Healthcare Interoperability Resources). Isso permite transformar dados de saúde de formatos legados, como HL7v2 ou CDA, ou de dados de IoT de alta frequência em formatos proprietários de dispositivos para FHIR. Isto facilita a ligação de dados armazenados nos Serviços de Dados de Saúde do Azure com serviços em todo o ecossistema do Azure, como o Azure Synapse Analytics e o Azure Machine Learning (Azure ML).
Os Serviços de Dados de Saúde do Azure incluem suporte para vários padrões de dados de saúde para a troca de dados estruturados e a capacidade de implantar várias instâncias de diferentes tipos de serviços (FHIR, DICOM e MedTech) que funcionam perfeitamente entre si. Os serviços implantados em um espaço de trabalho também compartilham um limite de conformidade e definições de configuração comuns. O produto é dimensionado automaticamente para atender às diversas demandas de suas cargas de trabalho, para que você gaste menos tempo gerenciando a infraestrutura e mais tempo gerando insights a partir de dados de saúde.
A cópia de dados de saúde armazenados no Azure FHIR Server para o Synapse Analytics permite que os pesquisadores aproveitem uma ferramenta de análise e armazenamento de dados em escala de nuvem para extrair insights de seus dados, bem como construir pipelines de pesquisa escalonáveis. Para obter informações sobre como realizar esta exportação e análise downstream, visite este repositório.
Você também pode ver exemplos práticos de uso do FHIR no Azure, mas observe que você precisará fornecer seus próprios arquivos VCF, pois eles não são fornecidos com o conteúdo do tutorial.
A análise de imagens médicas requer a análise de grandes arquivos de imagem e muitas vezes requer armazenamento elástico e computação acelerada. O Microsoft Azure oferece recursos de análise de imagens médicas baseados em nuvem por meio de suas APIs Azure Healthcare e soluções Azure Medical Imaging. O serviço DICOM do Azure permite o armazenamento, o gerenciamento e o processamento seguros de imagens médicas na nuvem, usando o formato DICOM (Digital Imaging and Communications in Medicine) padrão do setor. O serviço DICOM oferece recursos como alta disponibilidade, recuperação de desastres e opções de armazenamento escaláveis, tornando-o uma solução ideal para pipelines que precisam armazenar, gerenciar e analisar grandes quantidades de dados de imagens médicas. Além disso, o servidor integra-se com outros serviços do Azure, como o Azure ML, facilitando o uso de algoritmos avançados de aprendizado de máquina para tarefas de análise de imagens, como detecção, segmentação e classificação de objetos. Leia sobre como implantar o serviço aqui.
A Microsoft tem vários notebooks de imagens médicas que apresentam diferentes casos de uso de imagens médicas no Azure Machine Learning. Esses notebooks demonstram várias técnicas de ciência de dados, como desenvolvimento manual de modelos com PyTorch, aprendizado de máquina automatizado e exemplos baseados em MLOPS para automatizar o ciclo de vida do aprendizado de máquina em casos de uso médico, incluindo reciclagem. Esses cadernos estão disponíveis aqui. Certifique-se de selecionar um kernel que inclua Pytorch, caso contrário a instalação de dependências pode ser desafiadora. Observe também que você precisa usar uma VM GPU para a maioria das células do notebook, mas você pode criar vários ambientes de computação e alternar entre eles conforme necessário. Certifique-se de desligá-los quando terminar.
Para usuários do Cloud Lab interessados em informática clínica multimodal, o DICOMcast oferece a capacidade de sincronizar dados de um serviço DICOM para um serviço FHIR, permitindo aos usuários integrar dados clínicos e de imagem. O DICOMcast expande os casos de uso de dados de saúde, oferecendo suporte a uma visão simplificada de dados longitudinais de pacientes e à capacidade de criar coortes de maneira eficaz para estudos médicos, análises e aprendizado de máquina. Para obter mais informações sobre como utilizar o DICOMcast, visite a documentação da Microsoft ou o repositório GitHub de código aberto.
Para usuários que desejam treinar modelos de aprendizagem profunda em dados de imagem, o InnerEye-DeepLearning (IE-DL) é uma caixa de ferramentas desenvolvida pela Microsoft para treinar facilmente modelos de aprendizagem profunda em imagens médicas 3D. Simples de executar localmente e na nuvem com o Azure Machine Learning, ele permite que os usuários treinem e executem inferências sobre o seguinte: • Modelos de segmentação • Modelos de classificação e regressão • Qualquer modelo PyTorch Lightning, por meio de uma configuração traga seu próprio modelo Este projeto existe em um repositório GitHub separado.
A Microsoft tem várias ofertas relacionadas à genômica que serão úteis para muitos usuários do Cloud Lab. Para uma visão geral ampla, visite o site da Microsoft Genomics Community. Você também pode obter uma visão geral das diferentes opções de execução neste blog e uma análise detalhada do Nextflow com AWS Batch neste blog. Destacamos alguns serviços principais aqui:
Os estudos de associação genômica ampla (GWAS) são investigações em larga escala que analisam os genomas de muitos indivíduos para identificar variantes genéticas comuns associadas a características, doenças ou outros fenótipos.
NCBI BLAST (Basic Local Alignment Search Tool) é um programa de bioinformática amplamente utilizado fornecido pelo Centro Nacional de Informações sobre Biotecnologia (NCBI) que compara sequências de nucleotídeos ou proteínas com um grande banco de dados para identificar sequências semelhantes e inferir relações evolutivas, anotações funcionais e estruturais Informação.
A análise de RNA-seq é um método de sequenciamento de alto rendimento que permite a medição e caracterização dos níveis de expressão gênica e da dinâmica do transcriptoma. Os fluxos de trabalho normalmente são executados usando gerenciadores de fluxo de trabalho, e os resultados finais muitas vezes podem ser visualizados em cadernos.
O sequenciamento de RNA unicelular (scRNA-seq) é uma técnica que permite a análise da expressão gênica no nível celular individual, fornecendo insights sobre a heterogeneidade celular, identificando tipos de células raras e revelando a dinâmica celular e os estados funcionais em sistemas biológicos complexos.
A análise de sequência de DNA de leitura longa envolve a análise de leituras de sequenciamento normalmente com mais de 10 mil pares de bases (pb) de comprimento, em comparação com o sequenciamento de leitura curta, onde as leituras têm cerca de 150 pb de comprimento. Oxford Nanopore tem uma oferta bastante completa de tutoriais de notebook para lidar com dados de leitura longa para fazer uma variedade de coisas, incluindo chamada de variantes, RNAseq, análise de Sars-Cov-2 e muito mais. Acesse os notebooks aqui e no GitHub. Esses notebooks esperam que você esteja executando localmente e acessando o servidor de notebook epi2me. Para executá-los no Cloud Lab, pule a primeira célula que se conecta ao servidor e então o restante do notebook deverá rodar corretamente, com alguns ajustes. Oxford Nanopore também oferece uma série de fluxos de trabalho Nextflow que permitirão executar uma variedade de pipelines de leitura longa.
Esses conjuntos de dados disponíveis publicamente podem economizar tempo na descoberta e preparação de dados, sendo selecionados e prontos para uso em seus fluxos de trabalho.