Hay muchas formas de ejecutar flujos de trabajo en GCP. Aquí enumeramos algunas posibilidades, cada una de las cuales puede funcionar para diferentes objetivos de investigación. Mientras recorre los diversos tutoriales a continuación, piense en cómo podría ejecutar ese flujo de trabajo de manera más eficiente utilizando uno de los otros métodos enumerados aquí.
screen
o, como un script de inicio adjunto como metadatos.managed notebooks
y user managed notebooks
. Los managed notebooks
tienen más funciones y se pueden programar, pero le brindan menos control para los entornos/instalaciones de Conda.El aprendizaje automático es un subcampo de la inteligencia artificial que se centra en el desarrollo de algoritmos y modelos que permiten a las computadoras aprender y tomar predicciones o decisiones basadas en datos, sin estar programadas explícitamente. El aprendizaje automático en GCP generalmente ocurre dentro de VertexAI. Puede obtener más información sobre el aprendizaje automático en GCP en este curso intensivo de Google. Para ver ejemplos prácticos, pruebe este módulo desarrollado por la Universidad Estatal de San Francisco o este de la Universidad de Arkasas desarrollado para el Proyecto NIGMS Sandbox.
Ahora que ha llegado la era de la IA generativa (Gen AI), Google ha lanzado una serie de ofertas Gen AI dentro de la suite Vertex AI. Algunos ejemplos de lo que son capaces de hacer los modelos de IA generativa son extraer información deseada del texto, transformar voz en texto, generar imágenes a partir de descripciones y viceversa, y mucho más. La consola Vertex AI Studio de Vertex AI permite al usuario crear, probar y entrenar rápidamente modelos de IA generativa en la nube en un entorno seguro; consulte nuestra descripción general en este tutorial. El estudio también cuenta con modelos listos para usar, todos contenidos en Model Garden. Estos modelos van desde modelos básicos, modelos ajustables y soluciones para tareas específicas.
El análisis de imágenes médicas es la aplicación de técnicas y algoritmos computacionales para extraer información significativa de imágenes médicas con fines de diagnóstico, planificación de tratamiento y investigación. El análisis de imágenes médicas requiere archivos de imágenes de gran tamaño y, a menudo, almacenamiento elástico y computación acelerada.
Los datos de secuencia genética de próxima generación se encuentran en el archivo de lectura de secuencias (SRA) del NCBI. Puede acceder a estos datos utilizando el kit de herramientas SRA. Lo guiaremos a través de este cuaderno, incluido cómo usar BigQuery para generar su lista de Adhesiones. También puedes usar BigQuery para crear una lista de muestras para descargar usando esta guía de configuración y esta guía de consulta. Se pueden encontrar cuadernos de ejemplo adicionales en este repositorio de NCBI. En particular, recomendamos este cuaderno (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb), que detalla más sobre el uso de BigQuery para acceder a los resultados del análisis taxonómico SRA. Herramienta, que a menudo difiere del nombre de especie ingresado por el usuario debido a contaminación, error o debido a que las muestras son de naturaleza metagenómica. Además, este cuaderno profundiza en el análisis de los resultados de BigQuery y puede brindarle algunas buenas ideas sobre cómo buscar muestras de SRA. Los análisis de taxonomía y metadatos de SRA están en tablas de BigQuery separadas; puede aprender cómo unir esas dos tablas usando SQL desde este Powerpoint o desde nuestro tutorial aquí. Finalmente, NCBI lanzó este taller que analiza una amplia variedad de aplicaciones de BigQuery con conjuntos de datos de NCBI.
La llamada de variantes genómicas es el proceso de identificar y caracterizar variaciones genéticas a partir de datos de secuenciación de ADN para comprender las diferencias en la composición genética de un individuo.
El resultado de los flujos de trabajo de llamada de variantes genómicas es un archivo en formato de llamada de variante (VCF). Suelen ser archivos de datos grandes y estructurados en los que se pueden buscar utilizando herramientas de consulta de bases de datos como Big Query.
Los estudios de asociación de todo el genoma (GWAS) son investigaciones a gran escala que analizan los genomas de muchos individuos para identificar variantes genéticas comunes asociadas con rasgos, enfermedades u otros fenotipos.
La proteómica es el estudio del conjunto completo de proteínas en una célula, tejido u organismo, con el objetivo de comprender su estructura, función e interacciones para descubrir conocimientos sobre procesos biológicos y enfermedades. Aunque la mayoría de los análisis proteómicos primarios se realizan en plataformas de software patentadas, muchos análisis secundarios se realizan en portátiles Jupyter o R. Aquí damos varios ejemplos:
Custom container
y luego, para Docker container image
pegue lo siguiente: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.El análisis RNA-seq es un método de secuenciación de alto rendimiento que permite la medición y caracterización de los niveles de expresión génica y la dinámica del transcriptoma. Los flujos de trabajo normalmente se ejecutan mediante administradores de flujo de trabajo y los resultados finales a menudo se pueden visualizar en cuadernos.
El ensamblaje del transcriptoma es el proceso de reconstruir el conjunto completo de transcripciones de ARN en una célula o tejido a partir de datos de secuenciación fragmentados, lo que proporciona información valiosa sobre la expresión genética y el análisis funcional.
La secuenciación de ARN unicelular (scRNA-seq) es una técnica que permite el análisis de la expresión genética a nivel de célula individual, proporcionando información sobre la heterogeneidad celular, identificando tipos de células raras y revelando la dinámica celular y los estados funcionales dentro de sistemas biológicos complejos.
ATAC-seq es una técnica que permite a los científicos comprender cómo se empaqueta el ADN en las células mediante la identificación de las regiones del ADN que son accesibles y potencialmente involucradas en la regulación genética. -Este módulo le explica cómo trabajar a través de un flujo de trabajo ATACseq y ATACseq de celda única en Google Cloud. El módulo fue desarrollado por el Centro Médico de la Universidad de Nebraska para el Proyecto NIGMS Sandbox.
Como una de las modificaciones epigenéticas más abundantes y mejor estudiadas, la metilación del ADN desempeña un papel esencial en el desarrollo celular normal y tiene diversos efectos sobre la transcripción, la estabilidad del genoma y el empaquetado del ADN dentro de las células. Mylseq es una técnica para identificar regiones metiladas del genoma.
La metagenómica es el estudio del material genético recolectado directamente de muestras ambientales, lo que permite la exploración de comunidades microbianas, su diversidad y su potencial funcional, sin necesidad de cultivos de laboratorio. -Este módulo lo guía en la realización de un análisis metagenómico utilizando la línea de comando y Nextflow. El módulo fue desarrollado por la Universidad de Dakota del Sur como parte del Proyecto NIGMS Sandbox.
El análisis multiómico implica la integración de datos entre modalidades (por ejemplo, genómico, transcriptómico, fenotípico) para generar conocimientos aditivos.
El descubrimiento de biomarcadores es el proceso de identificar moléculas o características específicas que pueden servir como indicadores de procesos biológicos, enfermedades o respuestas al tratamiento, ayudando en el diagnóstico, el pronóstico y la medicina personalizada. El descubrimiento de biomarcadores generalmente se lleva a cabo mediante un análisis integral de varios tipos de datos, como genómicos, proteómicos, metabolómicos y datos clínicos, utilizando técnicas avanzadas que incluyen detección de alto rendimiento, bioinformática y análisis estadístico para identificar patrones o firmas que diferencian entre personas sanas y sanas. individuos enfermos, o que responden y no responden a tratamientos específicos.
NCBI BLAST (Herramienta de búsqueda de alineación local básica) es un programa bioinformático ampliamente utilizado proporcionado por el Centro Nacional de Información Biotecnológica (NCBI) que compara secuencias de nucleótidos o proteínas con una gran base de datos para identificar secuencias similares e inferir relaciones evolutivas, anotaciones funcionales y estructuras. información.
El análisis de secuencias de ADN de lectura larga implica el análisis de lecturas de secuenciación que suelen tener más de 10 mil pares de bases (pb) de longitud, en comparación con la secuenciación de lectura corta, donde las lecturas tienen una longitud de aproximadamente 150 pb. Oxford Nanopore tiene una oferta bastante completa de tutoriales en portátiles para manejar datos de lectura larga para hacer una variedad de cosas que incluyen llamada de variantes, RNAseq, análisis de Sars-Cov-2 y mucho más. Puede encontrar una lista y una descripción de los cuadernos aquí o clonar el repositorio de GitHub. Tenga en cuenta que estos portátiles requieren que se ejecute localmente y acceda al servidor de portátiles epi2me. Para ejecutarlos en Cloud Lab, omita la primera celda que se conecta al servidor y luego el resto del portátil debería ejecutarse correctamente, con algunos ajustes.
El Consorcio Accelerating Therapeutics for Opportunities in Medicine (ATOM) creó una serie de cuadernos Jupyter que le guiarán a través del enfoque ATOM para el descubrimiento de fármacos.
Estos cuadernos se crearon para ejecutarse en Google Colab, por lo que si los ejecuta en Google Cloud, deberá realizar algunas modificaciones. En primer lugar, le recomendamos que utilice una libreta administrada por Google en lugar de una libreta administrada por el usuario simplemente porque las libretas administradas por Google ya tienen Tensorflow y otras dependencias instaladas. Asegúrese de conectar una GPU a su instancia (T4 está bien). Además, deberá comentar %tensorflow_version 2.x
ya que es un comando específico de Colab. También necesitarás pip install
algunos paquetes según sea necesario. Si obtiene errores con deepchem
, intente ejecutar pip install --pre deepchem[tensorflow]
y/o pip install --pre deepchem[torch]
. Además, algunas computadoras portátiles requerirán un kernel Tensorflow, mientras que otras requerirán Pytorch. También puede encontrarse con un error de Pandas; comuníquese con los desarrolladores de ATOM GitHub para obtener la mejor solución a este problema.
Puede interactuar con Google Batch directamente para enviar comandos o, más comúnmente, puede interactuar con él a través de motores de orquestación como Nextflow y Cromwell, etc. Tenemos tutoriales que utilizan Google Batch usando Nextflow, donde también ejecutamos el canal nf-core Mylseq. como varios de NIGMS Sandbox, incluido el ensamblaje de transcriptomas, multiómica, metilseq y metagenómica.
La API de ciencias biológicas se deprecia en GCP y ya no estará disponible en la plataforma el 8 de julio de 2025; recomendamos utilizar Google Batch en su lugar. Por ahora, aún puede interactuar con la API de Life Sciences directamente para enviar comandos o, más comúnmente, puede interactuar con ella a través de motores de orquestación como Snakemake; a partir de ahora, este administrador de flujo de trabajo solo admite la API de Life Sciences.
Google tiene muchos conjuntos de datos públicos disponibles que puede utilizar para sus pruebas. Estos se pueden ver aquí y se puede acceder a ellos a través de BigQuery o directamente desde el depósito en la nube. Por ejemplo, para ver los genomas 1k de la fase 3 en la línea de comando, escriba gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.