Este repositorio pertenece a la Iniciativa NIH STRIDES. STRIDES tiene como objetivo aprovechar el poder de la nube para acelerar los descubrimientos biomédicos. Para obtener más información, visite https://cloud.nih.gov.
El objetivo de NIH Cloud Lab es hacer que la nube sea fácil y accesible para usted, de modo que pueda dedicar menos tiempo a tareas administrativas y concentrarse más en la investigación.
Utilice este repositorio para aprender a usar Azure explorando los recursos vinculados y siguiendo los tutoriales. Si es principiante, le sugerimos que comience con la sección de inicio rápido en el sitio web de Cloud Lab antes de regresar aquí.
El aprendizaje automático es un subcampo de la inteligencia artificial que se centra en el desarrollo de algoritmos y modelos que permiten a las computadoras aprender y tomar predicciones o decisiones basadas en datos, sin estar programadas explícitamente. Los algoritmos de inteligencia artificial y aprendizaje automático se están aplicando a una variedad de cuestiones de investigación biomédica, que van desde la clasificación de imágenes hasta la llamada de variantes genómicas. Azure ofrece servicios de IA a través de Azure AI Studio y Azure Machine Learning.
Consulte nuestro conjunto de tutoriales para obtener más información sobre Gen AI en Azure que destacan productos de Azure como Azure AI Studio, Azure OpenAI y Azure AI Search y herramientas externas como Langchain. Estos cuadernos le explicarán cómo implementar, entrenar y consultar modelos, así como también cómo implementar técnicas como la generación aumentada de recuperación (RAG). Si está interesado en configurar un modelo para trabajar con datos estructurados como archivos csv o json, hemos creado tutoriales que le guiarán a través de cómo indexar su csv usando la interfaz de usuario de Azure y consultar su base de datos usando un cuaderno dentro de Azure ML. También tenemos otro tutorial que ejecuta todos los pasos necesarios directamente desde una libreta.
Azure Health Data Services es un conjunto de servicios que le permite almacenar, procesar y analizar datos médicos en Azure. Estos servicios están diseñados para ayudar a las organizaciones a conectar rápidamente fuentes y formatos de datos de salud dispares, como datos estructurados, de imágenes y de dispositivos, y normalizarlos para que persistan en la nube. Básicamente, Azure Health Data Services posee la capacidad de transformar e ingerir datos en formato FHIR (Fast Healthcare Interoperability Resources). Esto le permite transformar datos de salud desde formatos heredados, como HL7v2 o CDA, o desde datos de IoT de alta frecuencia en formatos propietarios del dispositivo a FHIR. Esto facilita la conexión de los datos almacenados en Azure Health Data Services con servicios en todo el ecosistema de Azure, como Azure Synapse Analytics y Azure Machine Learning (Azure ML).
Azure Health Data Services incluye soporte para múltiples estándares de datos de salud para el intercambio de datos estructurados y la capacidad de implementar múltiples instancias de diferentes tipos de servicios (FHIR, DICOM y MedTech) que funcionan perfectamente entre sí. Los servicios implementados dentro de un espacio de trabajo también comparten un límite de cumplimiento y configuraciones comunes. El producto se escala automáticamente para satisfacer las distintas demandas de sus cargas de trabajo, por lo que dedica menos tiempo a administrar la infraestructura y más tiempo a generar conocimientos a partir de datos de salud.
Copiar los datos de atención médica almacenados en Azure FHIR Server a Synapse Analytics permite a los investigadores aprovechar una herramienta de análisis y almacenamiento de datos a escala de la nube para extraer información de sus datos y crear canales de investigación escalables. Para obtener información sobre cómo realizar esta exportación y análisis posteriores, visite este repositorio.
También puede ver ejemplos prácticos del uso de FHIR en Azure, pero tenga en cuenta que deberá proporcionar sus propios archivos VCF, ya que no se proporcionan con el contenido del tutorial.
El análisis de imágenes médicas requiere el análisis de archivos de imágenes de gran tamaño y, a menudo, requiere almacenamiento elástico y computación acelerada. Microsoft Azure ofrece capacidades de análisis de imágenes médicas basadas en la nube a través de sus API Azure Healthcare y soluciones Azure Medical Imaging. El servicio DICOM de Azure permite el almacenamiento, la gestión y el procesamiento seguros de imágenes médicas en la nube, utilizando el formato DICOM (Imágenes digitales y comunicaciones en medicina) estándar de la industria. El servicio DICOM proporciona características como alta disponibilidad, recuperación ante desastres y opciones de almacenamiento escalables, lo que lo convierte en una solución ideal para tuberías que necesitan almacenar, administrar y analizar grandes cantidades de datos de imágenes médicas. Además, el servidor se integra con otros servicios de Azure como Azure ML, lo que facilita el uso de algoritmos avanzados de aprendizaje automático para tareas de análisis de imágenes como detección, segmentación y clasificación de objetos. Lea sobre cómo implementar el servicio aquí.
Microsoft tiene varios cuadernos de imágenes médicas que muestran diferentes casos de uso de imágenes médicas en Azure Machine Learning. Estos cuadernos demuestran diversas técnicas de ciencia de datos, como el desarrollo manual de modelos con PyTorch, aprendizaje automático automatizado y ejemplos basados en MLOPS para automatizar el ciclo de vida del aprendizaje automático en casos de uso médico, incluido el reentrenamiento. Estos cuadernos están disponibles aquí. Asegúrese de seleccionar un kernel que incluya Pytorch; de lo contrario, la instalación de dependencias puede resultar complicada. Tenga en cuenta también que necesita utilizar una máquina virtual GPU para la mayoría de las celdas del portátil, pero puede crear varios entornos informáticos y alternar entre ellos según sea necesario. Asegúrese de apagarlos cuando haya terminado.
Para los usuarios de Cloud Lab interesados en la informática clínica multimodal, DICOMcast ofrece la capacidad de sincronizar datos de un servicio DICOM a un servicio FHIR, lo que permite a los usuarios integrar datos clínicos y de imágenes. DICOMcast amplía los casos de uso de datos de salud al admitir una vista optimizada de datos longitudinales de pacientes y la capacidad de crear cohortes de manera efectiva para estudios médicos, análisis y aprendizaje automático. Para obtener más información sobre cómo utilizar DICOMcast, visite la documentación de Microsoft o el repositorio de código abierto de GitHub.
Para los usuarios que esperan entrenar modelos de aprendizaje profundo con datos de imágenes, InnerEye-DeepLearning (IE-DL) es una caja de herramientas que Microsoft desarrolló para entrenar fácilmente modelos de aprendizaje profundo con imágenes médicas en 3D. Fácil de ejecutar tanto localmente como en la nube con Azure Machine Learning, permite a los usuarios entrenar y ejecutar inferencias sobre lo siguiente: • Modelos de segmentación • Modelos de clasificación y regresión • Cualquier modelo PyTorch Lightning, a través de una configuración de "traiga su propio modelo" Este proyecto existe en un repositorio de GitHub separado.
Microsoft tiene varias ofertas relacionadas con la genómica que serán útiles para muchos usuarios de Cloud Lab. Para obtener una descripción general amplia, visite el sitio de Microsoft Genomics Community. También puede obtener una descripción general de las diferentes opciones de ejecución en este blog y un análisis detallado de Nextflow con AWS Batch en este blog. Destacamos aquí algunos servicios clave:
Los estudios de asociación de todo el genoma (GWAS) son investigaciones a gran escala que analizan los genomas de muchos individuos para identificar variantes genéticas comunes asociadas con rasgos, enfermedades u otros fenotipos.
NCBI BLAST (Herramienta de búsqueda de alineación local básica) es un programa bioinformático ampliamente utilizado proporcionado por el Centro Nacional de Información Biotecnológica (NCBI) que compara secuencias de nucleótidos o proteínas con una gran base de datos para identificar secuencias similares e inferir relaciones evolutivas, anotaciones funcionales y estructuras. información.
El análisis RNA-seq es un método de secuenciación de alto rendimiento que permite la medición y caracterización de los niveles de expresión génica y la dinámica del transcriptoma. Los flujos de trabajo normalmente se ejecutan mediante administradores de flujo de trabajo y los resultados finales a menudo se pueden visualizar en cuadernos.
La secuenciación de ARN unicelular (scRNA-seq) es una técnica que permite el análisis de la expresión genética a nivel de célula individual, proporcionando información sobre la heterogeneidad celular, identificando tipos de células raras y revelando la dinámica celular y los estados funcionales dentro de sistemas biológicos complejos.
El análisis de secuencias de ADN de lectura larga implica el análisis de lecturas de secuenciación que suelen tener más de 10 mil pares de bases (pb) de longitud, en comparación con la secuenciación de lectura corta, donde las lecturas tienen una longitud de aproximadamente 150 pb. Oxford Nanopore tiene una oferta bastante completa de tutoriales en portátiles para manejar datos de lectura larga para hacer una variedad de cosas que incluyen llamada de variantes, RNAseq, análisis de Sars-Cov-2 y mucho más. Acceda a los cuadernos aquí y en GitHub. Estos portátiles esperan que usted se ejecute localmente y acceda al servidor de portátiles epi2me. Para ejecutarlos en Cloud Lab, omita la primera celda que se conecta al servidor y luego el resto del portátil debería ejecutarse correctamente, con algunos ajustes. Oxford Nanopore también ofrece una serie de flujos de trabajo Nextflow que le permitirán ejecutar una variedad de procesos de lectura largos.
Estos conjuntos de datos disponibles públicamente pueden ahorrarle tiempo en el descubrimiento y la preparación de datos al estar seleccionados y listos para usar en sus flujos de trabajo.