Il existe de nombreuses façons d'exécuter des workflows sur GCP. Nous énumérons ici quelques possibilités, chacune pouvant fonctionner pour différents objectifs de recherche. En parcourant les différents didacticiels ci-dessous, réfléchissez à la manière dont vous pourriez exécuter ce flux de travail plus efficacement en utilisant l'une des autres méthodes répertoriées ici.
screen
ou, en tant que script de démarrage joint en tant que métadonnées.managed notebooks
et user managed notebooks
. Les managed notebooks
ont plus de fonctionnalités et peuvent être planifiés, mais vous donnent moins de contrôle sur les environnements/installations conda.L'apprentissage automatique est un sous-domaine de l'intelligence artificielle qui se concentre sur le développement d'algorithmes et de modèles permettant aux ordinateurs d'apprendre et de faire des prédictions ou des décisions basées sur des données, sans être explicitement programmés. L'apprentissage automatique sur GCP se produit généralement au sein de VertexAI. Vous pouvez en savoir plus sur l'apprentissage automatique sur GCP lors de ce cours accéléré de Google. Pour des exemples pratiques, essayez ce module développé par l'Université d'État de San Francisco ou celui de l'Université d'Arkasas développé pour le projet NIGMS Sandbox.
Maintenant que l'ère de l'IA générative (Gen AI) est arrivée, Google a lancé une multitude d'offres Gen AI au sein de la suite Vertex AI. Quelques exemples de ce dont les modèles d'IA génératifs sont capables sont l'extraction d'informations recherchées à partir d'un texte, la transformation de la parole en texte, la génération d'images à partir de descriptions et vice versa, et bien plus encore. La console Vertex AI Studio de Vertex AI permet à l'utilisateur de créer, tester et entraîner rapidement des modèles d'IA génératifs sur le cloud dans un environnement sûr et sécurisé. Consultez notre présentation dans ce didacticiel. Le studio propose également des modèles prêts à l’emploi, tous contenus dans le Model Garden. Ces modèles vont des modèles de base, des modèles affinables et des solutions spécifiques à des tâches.
L'analyse d'images médicales est l'application d'algorithmes et de techniques informatiques pour extraire des informations significatives à partir d'images médicales à des fins de diagnostic, de planification de traitement et de recherche. L’analyse d’images médicales nécessite des fichiers d’images volumineux, un stockage souvent élastique et un calcul accéléré.
Les données de séquence génétique de nouvelle génération sont hébergées dans les archives de lecture de séquence NCBI (SRA). Vous pouvez accéder à ces données à l’aide du SRA Toolkit. Nous vous expliquons tout cela à l'aide de ce bloc-notes, notamment comment utiliser BigQuery pour générer votre liste d'adhésions. Vous pouvez également utiliser BigQuery pour créer une liste d'adhésions à télécharger à l'aide de ce guide de configuration et de ce guide de requête. Des exemples de blocs-notes supplémentaires peuvent être trouvés sur ce dépôt NCBI. En particulier, nous recommandons ce notebook (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb), qui explique plus en détail l'utilisation de BigQuery pour accéder aux résultats de l'analyse taxonomique SRA. Outil, qui diffère souvent du nom de l'espèce saisi par l'utilisateur en raison d'une contamination, d'une erreur ou du fait que les échantillons sont de nature métagénomique. De plus, ce notebook approfondit l'analyse des résultats BigQuery et peut vous donner de bonnes idées sur la manière de rechercher des échantillons provenant de SRA. Les analyses de métadonnées et de taxonomie SRA se trouvent dans des tables BigQuery distinctes. Vous pouvez apprendre à joindre ces deux tables à l'aide de SQL à partir de ce Powerpoint ou de notre didacticiel ici. Enfin, NCBI a publié cet atelier qui présente une grande variété d'applications BigQuery avec des ensembles de données NCBI.
L'appel de variantes génomiques est le processus d'identification et de caractérisation des variations génétiques à partir des données de séquençage de l'ADN afin de comprendre les différences dans la constitution génétique d'un individu.
La sortie des flux de travail d’appel de variantes génomiques est un fichier au format d’appel de variantes (VCF). Il s'agit souvent de fichiers de données volumineux et structurés qui peuvent être recherchés à l'aide d'outils de requête de base de données tels que Big Query.
Les études d'association pangénomique (GWAS) sont des enquêtes à grande échelle qui analysent les génomes de nombreux individus afin d'identifier des variantes génétiques communes associées à des traits, des maladies ou d'autres phénotypes.
La protéomique est l'étude de l'ensemble des protéines d'une cellule, d'un tissu ou d'un organisme, visant à comprendre leur structure, leur fonction et leurs interactions afin de mieux comprendre les processus biologiques et les maladies. Bien que la plupart des analyses protéomiques primaires soient effectuées sur des plates-formes logicielles propriétaires, de nombreuses analyses secondaires ont lieu dans les notebooks Jupyter ou R. Nous donnons ici plusieurs exemples :
Custom container
, puis pour Docker container image
collez ce qui suit : west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.L'analyse RNA-seq est une méthode de séquençage à haut débit qui permet la mesure et la caractérisation des niveaux d'expression génique et de la dynamique du transcriptome. Les flux de travail sont généralement exécutés à l'aide de gestionnaires de flux de travail et les résultats finaux peuvent souvent être visualisés dans des blocs-notes.
L'assemblage du transcriptome est le processus de reconstruction de l'ensemble complet des transcrits d'ARN dans une cellule ou un tissu à partir de données de séquençage fragmentées, fournissant des informations précieuses sur l'expression des gènes et l'analyse fonctionnelle.
Le séquençage de l'ARN unicellulaire (scRNA-seq) est une technique qui permet d'analyser l'expression des gènes au niveau de chaque cellule, fournissant des informations sur l'hétérogénéité cellulaire, identifiant des types de cellules rares et révélant la dynamique cellulaire et les états fonctionnels au sein de systèmes biologiques complexes.
ATAC-seq est une technique qui permet aux scientifiques de comprendre comment l'ADN est conditionné dans les cellules en identifiant les régions de l'ADN accessibles et potentiellement impliquées dans la régulation des gènes. -Ce module vous explique comment utiliser un flux de travail ATACseq et ATACseq unicellulaire sur Google Cloud. Le module a été développé par le centre médical de l'Université du Nebraska pour le projet NIGMS Sandbox.
En tant que l’une des modifications épigénétiques les plus abondantes et les mieux étudiées, la méthylation de l’ADN joue un rôle essentiel dans le développement cellulaire normal et a divers effets sur la transcription, la stabilité du génome et l’empaquetage de l’ADN dans les cellules. Méthylseq est une technique permettant d'identifier les régions méthylées du génome.
La métagénomique est l'étude du matériel génétique collecté directement à partir d'échantillons environnementaux, permettant l'exploration des communautés microbiennes, de leur diversité et de leur potentiel fonctionnel, sans avoir recours à une culture en laboratoire. -Ce module vous guide dans la réalisation d'une analyse métagénomique à l'aide de la ligne de commande et de Nextflow. Le module a été développé par l'Université du Dakota du Sud dans le cadre du projet NIGMS Sandbox.
L'analyse multiomique implique l'intégration de données sur plusieurs modalités (par exemple génomiques, transcriptomiques, phénotypiques) pour générer des informations additives.
La découverte de biomarqueurs est le processus d'identification de molécules ou de caractéristiques spécifiques qui peuvent servir d'indicateurs de processus biologiques, de maladies ou de réponses thérapeutiques, facilitant ainsi le diagnostic, le pronostic et la médecine personnalisée. La découverte de biomarqueurs est généralement réalisée grâce à une analyse complète de divers types de données, telles que la génomique, la protéomique, la métabolomique et les données cliniques, à l'aide de techniques avancées, notamment le criblage à haut débit, la bioinformatique et l'analyse statistique, pour identifier des modèles ou des signatures qui différencient les individus sains et les individus malades, ou les répondeurs et non-répondeurs à des traitements spécifiques.
NCBI BLAST (Basic Local Alignment Search Tool) est un programme bioinformatique largement utilisé fourni par le National Center for Biotechnology Information (NCBI) qui compare des séquences nucléotidiques ou protéiques à une grande base de données pour identifier des séquences similaires et déduire des relations évolutives, des annotations fonctionnelles et structurelles. information.
L'analyse de séquences d'ADN à lecture longue implique l'analyse des lectures de séquençage d'une longueur généralement supérieure à 10 000 paires de bases (pb), par rapport au séquençage à lecture courte où les lectures mesurent environ 150 pb. Oxford Nanopore propose une offre assez complète de didacticiels sur ordinateur portable pour gérer les données à lecture longue afin d'effectuer diverses choses, notamment l'appel de variantes, l'ARNseq, l'analyse Sars-Cov-2 et bien plus encore. Vous pouvez trouver une liste et une description des notebooks ici, ou cloner le dépôt GitHub. Notez que ces ordinateurs portables s'attendent à ce que vous exécutiez localement et que vous accédiez au serveur de ordinateurs portables epi2me. Pour les exécuter dans Cloud Lab, ignorez la première cellule qui se connecte au serveur, puis le reste du notebook devrait fonctionner correctement, avec quelques ajustements.
Le consortium Accelerating Therapeutics for Opportunities in Medicine (ATOM) a créé une série de cahiers Jupyter qui vous guident à travers l'approche ATOM de la découverte de médicaments.
Ces notebooks ont été créés pour fonctionner dans Google Colab, donc si vous les exécutez dans Google Cloud, vous devrez apporter quelques modifications. Tout d'abord, nous vous recommandons d'utiliser un bloc-notes géré par Google plutôt qu'un bloc-notes géré par l'utilisateur simplement parce que Tensorflow et d'autres dépendances sont déjà installés sur les blocs-notes gérés par Google. Assurez-vous de connecter un GPU à votre instance (T4 convient). De plus, vous devrez commenter %tensorflow_version 2.x
car il s'agit d'une commande spécifique à Colab. Vous devrez également pip install
quelques packages selon vos besoins. Si vous obtenez des erreurs avec deepchem
, essayez d'exécuter pip install --pre deepchem[tensorflow]
et/ou pip install --pre deepchem[torch]
. De plus, certains notebooks nécessiteront un noyau Tensorflow, tandis que d'autres nécessiteront Pytorch. Vous pouvez également rencontrer une erreur Pandas, contactez les développeurs ATOM GitHub pour connaître la meilleure solution à ce problème.
Vous pouvez interagir directement avec Google Batch pour soumettre des commandes, ou plus communément, vous pouvez interagir avec lui via des moteurs d'orchestration tels que Nextflow et Cromwell, etc. Nous avons des didacticiels qui utilisent Google Batch à l'aide de Nextflow dans lesquels nous exécutons également le pipeline nf-core Méthylseq. ainsi que plusieurs du NIGMS Sandbox, notamment l'assemblage du transcriptome, la multiomique, le méthylseq et la métagénomique.
L'API Life Science est dépréciée sur GCP et ne sera plus disponible d'ici le 8 juillet 2025 sur la plateforme, nous vous recommandons plutôt d'utiliser Google Batch. Pour l'instant, vous pouvez toujours interagir directement avec l'API Life Sciences pour soumettre des commandes, ou plus communément, vous pouvez interagir avec elle via des moteurs d'orchestration comme Snakemake. Pour l'instant, ce gestionnaire de flux de travail ne prend en charge que l'API Life Sciences.
Google dispose de nombreux ensembles de données publiques que vous pouvez utiliser pour vos tests. Ceux-ci peuvent être consultés ici et accessibles via BigQuery ou directement depuis le bucket cloud. Par exemple, pour afficher les génomes 1k de phase 3 sur la ligne de commande, tapez gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.