Hay muchas formas de ejecutar flujos de trabajo en AWS. Aquí enumeramos algunas posibilidades, cada una de las cuales puede funcionar para diferentes objetivos de investigación. Mientras recorre los diversos tutoriales a continuación, piense en cómo podría ejecutar ese flujo de trabajo de manera más eficiente utilizando uno de los otros métodos enumerados aquí. Si no está familiarizado con alguno de los términos o conceptos aquí, revise la página de AWS Jumpstart.
screen
o, como un script de inicio adjunto como metadatos. Consulte el tutorial de GWAS a continuación para obtener más información sobre cómo ejecutar una canalización utilizando EC2.Para muchos de estos tutoriales, necesitará claves de acceso a corto plazo para crear y utilizar recursos, especialmente cuando un tutorial requiera "ID de clave de acceso" y "clave secreta". Utilice esta guía para obtener una explicación sobre cómo obtener y utilizar claves de acceso a corto plazo. Si es un investigador afiliado a los NIH, en otras palabras, no trabaja en los NIH pero tiene una cuenta de Cloud Lab, no tendrá acceso a las claves. Si hay un tutorial que no puede completar, comuníquese con nosotros para obtener ayuda en [email protected]
Tenga en cuenta también que las máquinas con GPU cuestan más que la mayoría de las máquinas con CPU, así que asegúrese de apagar estas máquinas después de su uso o aplicar una configuración de ciclo de vida EC2. También puede encontrar cuotas de servicio para protegerlo del uso accidental de tipos de máquinas costosos. Si eso sucede y aún desea utilizar un determinado tipo de instancia, siga estas instrucciones.
El aprendizaje automático es un subcampo de la inteligencia artificial que se centra en el desarrollo de algoritmos y modelos que permiten a las computadoras aprender y tomar predicciones o decisiones basadas en datos, sin estar programadas explícitamente. Los algoritmos de inteligencia artificial y aprendizaje automático se están aplicando a una variedad de cuestiones de investigación biomédica, que van desde la clasificación de imágenes hasta la llamada de variantes genómicas. AWS tiene una larga lista de tutoriales de IA/ML disponibles y hemos compilado una lista aquí. El desarrollo más reciente se centra en la IA generativa, incluidos casos de uso como extraer información de texto, transformar voz en texto y generar imágenes a partir de texto. Sagemaker Studio permite al usuario crear, probar y entrenar rápidamente modelos de IA generativa y tiene modelos listos para usar, todos contenidos con JumpStart. Estos modelos van desde modelos básicos, modelos ajustables y soluciones para tareas específicas.
La informática clínica, también conocida como informática sanitaria o informática médica, es un campo interdisciplinario que aplica la ciencia de datos a los datos sanitarios para mejorar la atención al paciente, mejorar los procesos clínicos y facilitar la investigación médica. A menudo implica la integración de diversos tipos de datos, incluidos registros médicos electrónicos, datos demográficos o ambientales. AWS ofrece dos talleres bajo demanda que lo guiarán a través del análisis de datos de AWS HealthLake para la salud de la población. Este primer taller le muestra cómo ingerir datos en HealthLake, consultar esos datos usando Athena, visualizar estos datos usando QuickSight, luego unir datos FHIR con datos ambientales y visualizar el conjunto de datos combinado. El segundo taller también incorpora datos en HealthLake, luego visualiza datos de dispositivos médicos, utiliza inteligencia artificial para resumir notas clínicas y luego transcribe archivos de audio clínicos y los resume.
Los datos de secuencia genética de próxima generación se encuentran en el archivo de lectura de secuencias (SRA) del NCBI. Puede acceder a estos datos utilizando el kit de herramientas SRA. Lo guiaremos a través de este cuaderno, que también le explicará cómo configurar y buscar tablas de Athena para generar una lista de acceso. También puede leer esta guía para obtener más información sobre las tablas de conjuntos de datos disponibles. Se pueden encontrar cuadernos de ejemplo adicionales en este repositorio de NCBI. En particular, recomendamos este cuaderno (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb), que detalla más sobre el uso de Athena para acceder a los resultados del Análisis Taxonómico SRA. Herramienta, que a menudo difiere del nombre de especie ingresado por el usuario debido a contaminación, error o debido a que las muestras son de naturaleza metagenómica.
Los estudios de asociación de todo el genoma (GWAS) son investigaciones a gran escala que analizan los genomas de muchos individuos para identificar variantes genéticas comunes asociadas con rasgos, enfermedades u otros fenotipos.
El análisis de imágenes médicas requiere el análisis de archivos de imágenes de gran tamaño y, a menudo, requiere almacenamiento elástico y computación acelerada.
El análisis RNA-seq es un método de secuenciación de alto rendimiento que permite la medición y caracterización de los niveles de expresión génica y la dinámica del transcriptoma. Los flujos de trabajo normalmente se ejecutan mediante administradores de flujo de trabajo y los resultados finales a menudo se pueden visualizar en cuadernos.
La secuenciación de ARN unicelular (scRNA-seq) es una técnica que permite el análisis de la expresión genética a nivel de célula individual, proporcionando información sobre la heterogeneidad celular, identificando tipos de células raras y revelando la dinámica celular y los estados funcionales dentro de sistemas biológicos complejos.
NCBI BLAST (Herramienta de búsqueda de alineación local básica) es un programa bioinformático ampliamente utilizado proporcionado por el Centro Nacional de Información Biotecnológica (NCBI) que compara secuencias de nucleótidos o proteínas con una gran base de datos para identificar secuencias similares e inferir relaciones evolutivas, anotaciones funcionales y estructuras. información. El equipo de NCBI ha escrito una versión de BLAST para la nube llamada ElasticBLAST, y puede leer todo al respecto aquí. Básicamente, ElasticBLAST le ayuda a enviar trabajos BLAST a AWS Batch y escribir los resultados en S3. No dude en experimentar con el tutorial de ejemplo en Cloud Shell o probar nuestra versión para portátiles.
Puede ejecutar varios algoritmos de plegamiento de proteínas, incluido Alpha Fold, en AWS. Debido a que las bases de datos son tan grandes, la configuración normalmente es bastante difícil, pero AWS ha creado una pila StackFormation que automatiza la generación de todos los recursos necesarios para ejecutar Alpha Fold y otros algoritmos de plegado de proteínas. Puede leer sobre los recursos de AWS aquí y ver la página de GitHub aquí. Para que esto funcione, deberá modificar sus grupos de seguridad siguiendo estas instrucciones. Es probable que también deba otorgar permisos adicionales al rol que utiliza CloudFormation. Si se queda atascado, comuníquese con [email protected]. También puedes ejecutar ESMFold usando este tutorial.
El análisis de secuencias de ADN de lectura larga implica el análisis de lecturas de secuenciación que suelen tener más de 10 mil pares de bases (pb) de longitud, en comparación con la secuenciación de lectura corta, donde las lecturas tienen una longitud de aproximadamente 150 pb. Oxford Nanopore tiene una oferta bastante completa de tutoriales de portátiles para manejar datos de lectura larga para hacer una variedad de cosas que incluyen llamada de variantes, RNAseq, análisis de Sars-Cov-2 y mucho más. Accede a los cuadernos aquí. Estos portátiles esperan que usted se ejecute localmente y acceda al servidor de portátiles epi2me. Para ejecutarlos en Cloud Lab, omita la primera celda que se conecta al servidor y luego el resto del portátil debería ejecutarse correctamente, con algunos ajustes. Si sólo está buscando probar cuadernos, no comience con estos. Si está interesado en el análisis de secuencias de lectura largas, es posible que sea necesario solucionar algunos problemas para adaptarlos al entorno de Cloud Lab. Es posible que incluso necesites reescribirlos en un cuaderno nuevo adaptando los comandos. No dude en comunicarse con nuestro equipo de soporte para obtener ayuda.
El Consorcio Accelerating Therapeutics for Opportunities in Medicine (ATOM) creó una serie de cuadernos Jupyter que le guiarán a través del enfoque ATOM para el descubrimiento de fármacos.
Estos cuadernos se crearon para ejecutarse en Google Colab, por lo que si los ejecuta en AWS, deberá realizar algunas modificaciones. Primero, le recomendamos que utilice una computadora portátil Sagemaker Studio en lugar de una computadora portátil administrada por el usuario simplemente porque tendrá Tensorflow y otras dependencias instaladas. Asegúrese de conectar una GPU a su instancia (T4 está bien). Además, deberá comentar %tensorflow_version 2.x
ya que es un comando específico de Colab. También necesitarás pip install
algunos paquetes según sea necesario. Si obtiene errores con deepchem
, intente ejecutar pip install --pre deepchem[tensorflow]
y/o pip install --pre deepchem[torch]
. Además, algunas computadoras portátiles requerirán un kernel Tensorflow, mientras que otras requerirán Pytorch. También puede encontrarse con un error de Pandas, comunicarse con los desarrolladores de ATOM GitHub para obtener la mejor solución o revisar sus problemas.
La microscopía crioelectrónica (cryoEM) es una poderosa técnica de imágenes utilizada en biología estructural para visualizar las estructuras de macromoléculas biológicas, como proteínas, ácidos nucleicos y grandes complejos moleculares, con una resolución casi atómica o incluso atómica. Ha revolucionado el campo de la biología estructural al proporcionar estructuras tridimensionales detalladas de biomoléculas, lo cual es crucial para comprender sus funciones.
AWS tiene una gran cantidad de datos públicos que puede integrar en sus pruebas o utilizar en su propia investigación. Puede acceder a estos conjuntos de datos en el Registro de Datos Abiertos en AWS. Allí puede hacer clic en cualquiera de los conjuntos de datos para ver la ruta de S3 a los datos, así como las publicaciones que han utilizado esos datos y los tutoriales, si están disponibles. Para demostrarlo, podemos hacer clic en el conjunto de datos de gnomad, luego obtener la ruta S3 y ver los archivos en la línea de comando pegando https://registry.opendata.aws/broad-gnomad/
.