Il existe de nombreuses façons d'exécuter des flux de travail sur AWS. Nous énumérons ici quelques possibilités, chacune pouvant fonctionner pour différents objectifs de recherche. En parcourant les différents didacticiels ci-dessous, réfléchissez à la manière dont vous pourriez exécuter ce flux de travail plus efficacement en utilisant l'une des autres méthodes répertoriées ici. Si vous n'êtes pas familier avec l'un des termes ou concepts présentés ici, veuillez consulter la page AWS Jumpstart.
screen
ou, en tant que script de démarrage joint en tant que métadonnées. Consultez le didacticiel GWAS ci-dessous pour plus d'informations sur la façon d'exécuter un pipeline à l'aide d'EC2.Pour bon nombre de ces didacticiels, vous aurez besoin de clés d'accès à court terme pour créer et utiliser des ressources, en particulier lorsqu'un didacticiel appelle un « ID de clé d'accès » et une « clé secrète ». Utilisez ce guide pour expliquer comment obtenir et utiliser les clés d'accès à court terme. Si vous êtes un chercheur affilié au NIH, autrement dit, vous ne travaillez pas au NIH mais disposez d'un compte Cloud Lab, vous n'aurez pas accès aux clés. Si vous ne parvenez pas à terminer un didacticiel, contactez-nous pour obtenir de l'aide à [email protected].
Veuillez également noter que les machines GPU coûtent plus cher que la plupart des machines CPU, alors assurez-vous d'arrêter ces machines après utilisation ou d'appliquer une configuration de cycle de vie EC2. Vous pouvez également rencontrer des quotas de service pour vous protéger contre l’utilisation accidentelle de types de machines coûteux. Si cela se produit et que vous souhaitez toujours utiliser un certain type d'instance, suivez ces instructions.
L'apprentissage automatique est un sous-domaine de l'intelligence artificielle qui se concentre sur le développement d'algorithmes et de modèles permettant aux ordinateurs d'apprendre et de faire des prédictions ou des décisions basées sur des données, sans être explicitement programmés. Les algorithmes d’intelligence artificielle et d’apprentissage automatique sont appliqués à diverses questions de recherche biomédicale, allant de la classification d’images à l’appel de variantes génomiques. AWS propose une longue liste de didacticiels AI/ML disponibles et nous en avons compilé une liste ici. Les développements les plus récents se concentrent sur l'IA générative, y compris des cas d'utilisation tels que l'extraction d'informations à partir de texte, la transformation de la parole en texte et la génération d'images à partir de texte. Sagemaker Studio permet à l'utilisateur de créer, tester et former rapidement des modèles d'IA génératifs et dispose de modèles prêts à l'emploi, tous contenus dans JumpStart. Ces modèles vont des modèles de base, des modèles affinables et des solutions spécifiques à des tâches.
L'informatique clinique, également connue sous le nom d'informatique de santé ou informatique médicale, est un domaine interdisciplinaire qui applique la science des données aux données de santé pour améliorer les soins aux patients, améliorer les processus cliniques et faciliter la recherche médicale. Cela implique souvent l’intégration de divers types de données, notamment des dossiers de santé électroniques, des données démographiques ou environnementales. AWS propose deux ateliers à la demande qui vous guident dans l'analyse des données AWS HealthLake for Population Health. Ce premier atelier vous montre comment ingérer des données dans HealthLake, interroger ces données à l'aide d'Athena, visualiser ces données à l'aide de QuickSight, puis joindre les données FHIR aux données environnementales et visualiser l'ensemble de données combiné. Le deuxième atelier ingère également des données dans HealthLake, puis visualise les données des dispositifs médicaux, utilise l'IA pour résumer les notes cliniques, puis transcrit les fichiers audio cliniques et les résume.
Les données de séquence génétique de nouvelle génération sont hébergées dans les archives de lecture de séquence NCBI (SRA). Vous pouvez accéder à ces données à l’aide du SRA Toolkit. Nous vous expliquons cela à l'aide de ce bloc-notes, qui vous explique également comment configurer et rechercher des tables Athena pour générer une liste d'accession. Vous pouvez également lire ce guide pour plus d'informations sur les tableaux d'ensembles de données disponibles. Des exemples de blocs-notes supplémentaires peuvent être trouvés sur ce dépôt NCBI. En particulier, nous recommandons ce notebook (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb), qui explique plus en détail l'utilisation d'Athena pour accéder aux résultats de l'analyse taxonomique SRA. Outil, qui diffère souvent du nom de l'espèce saisi par l'utilisateur en raison d'une contamination, d'une erreur ou du fait que les échantillons sont de nature métagénomique.
Les études d'association pangénomique (GWAS) sont des enquêtes à grande échelle qui analysent les génomes de nombreux individus afin d'identifier des variantes génétiques communes associées à des traits, des maladies ou d'autres phénotypes.
L'analyse d'imagerie médicale nécessite l'analyse de fichiers d'images volumineux et nécessite souvent un stockage élastique et un calcul accéléré.
L'analyse RNA-seq est une méthode de séquençage à haut débit qui permet la mesure et la caractérisation des niveaux d'expression génique et de la dynamique du transcriptome. Les flux de travail sont généralement exécutés à l'aide de gestionnaires de flux de travail et les résultats finaux peuvent souvent être visualisés dans des blocs-notes.
Le séquençage de l'ARN unicellulaire (scRNA-seq) est une technique qui permet d'analyser l'expression des gènes au niveau de chaque cellule, fournissant des informations sur l'hétérogénéité cellulaire, identifiant des types de cellules rares et révélant la dynamique cellulaire et les états fonctionnels au sein de systèmes biologiques complexes.
NCBI BLAST (Basic Local Alignment Search Tool) est un programme bioinformatique largement utilisé fourni par le National Center for Biotechnology Information (NCBI) qui compare des séquences nucléotidiques ou protéiques à une grande base de données pour identifier des séquences similaires et déduire des relations évolutives, des annotations fonctionnelles et structurelles. information. L'équipe NCBI a écrit une version de BLAST pour le cloud appelée ElasticBLAST, et vous pouvez tout savoir ici. Essentiellement, ElasticBLAST vous aide à soumettre des tâches BLAST à AWS Batch et à réécrire les résultats dans S3. N'hésitez pas à expérimenter l'exemple de didacticiel dans Cloud Shell ou à essayer notre version notebook.
Vous pouvez exécuter plusieurs algorithmes de repliement de protéines, notamment Alpha Fold sur AWS. En raison de la taille des bases de données, la configuration est normalement assez difficile, mais AWS a créé une pile StackFormation qui automatise la rotation de toutes les ressources nécessaires à l'exécution d'Alpha Fold et d'autres algorithmes de repliement de protéines. Vous pouvez en savoir plus sur les ressources AWS ici et consulter la page GitHub ici. Pour que cela fonctionne, vous devrez modifier vos groupes de sécurité en suivant ces instructions. Vous devrez probablement également accorder des autorisations supplémentaires au rôle utilisé par CloudFormation. Si vous êtes bloqué, contactez [email protected]. Vous pouvez également exécuter ESMFold à l'aide de ce didacticiel.
L'analyse de séquences d'ADN à lecture longue implique l'analyse des lectures de séquençage d'une longueur généralement supérieure à 10 000 paires de bases (pb), par rapport au séquençage à lecture courte où les lectures mesurent environ 150 pb. Oxford Nanopore propose une offre assez complète de didacticiels sur ordinateur portable pour gérer les données à lecture longue afin d'effectuer diverses choses, notamment l'appel de variantes, l'ARNseq, l'analyse Sars-Cov-2 et bien plus encore. Accédez aux cahiers ici. Ces ordinateurs portables s'attendent à ce que vous exécutiez localement et que vous accédiez au serveur de ordinateurs portables epi2me. Pour les exécuter dans Cloud Lab, ignorez la première cellule qui se connecte au serveur, puis le reste du notebook devrait fonctionner correctement, avec quelques ajustements. Si vous cherchez simplement à essayer des cahiers, ne commencez pas par ceux-ci. Si vous êtes intéressé par l'analyse de séquences de lecture longues, un dépannage peut être nécessaire pour les adapter à l'environnement Cloud Lab. Vous devrez peut-être même les réécrire dans un nouveau cahier en adaptant les commandes. N'hésitez pas à contacter notre équipe d'assistance pour obtenir de l'aide.
Le consortium Accelerating Therapeutics for Opportunities in Medicine (ATOM) a créé une série de cahiers Jupyter qui vous guident à travers l'approche ATOM de la découverte de médicaments.
Ces notebooks ont été créés pour fonctionner dans Google Colab, donc si vous les exécutez dans AWS, vous devrez apporter quelques modifications. Tout d’abord, nous vous recommandons d’utiliser un bloc-notes Sagemaker Studio plutôt qu’un bloc-notes géré par l’utilisateur simplement parce que Tensorflow et d’autres dépendances seront installés. Assurez-vous de connecter un GPU à votre instance (T4 convient). De plus, vous devrez commenter %tensorflow_version 2.x
car il s'agit d'une commande spécifique à Colab. Vous devrez également pip install
quelques packages selon vos besoins. Si vous obtenez des erreurs avec deepchem
, essayez d'exécuter pip install --pre deepchem[tensorflow]
et/ou pip install --pre deepchem[torch]
. De plus, certains notebooks nécessiteront un noyau Tensorflow, tandis que d'autres nécessiteront Pytorch. Vous pouvez également rencontrer une erreur Pandas, contacter les développeurs ATOM GitHub pour trouver la meilleure solution ou examiner leurs problèmes.
La cryomicroscopie électronique (cryoEM) est une technique d'imagerie puissante utilisée en biologie structurale pour visualiser les structures de macromolécules biologiques, telles que les protéines, les acides nucléiques et les grands complexes moléculaires, à une résolution proche de l'atome ou même atomique. Il a révolutionné le domaine de la biologie structurale en fournissant des structures tridimensionnelles détaillées de biomolécules, essentielles à la compréhension de leurs fonctions.
AWS dispose de nombreuses données publiques que vous pouvez intégrer dans vos tests ou utiliser dans vos propres recherches. Vous pouvez accéder à ces ensembles de données dans le Registre des données ouvertes sur AWS. Là, vous pouvez cliquer sur l'un des ensembles de données pour afficher le chemin S3 vers les données, ainsi que les publications qui ont utilisé ces données et les didacticiels, le cas échéant. Pour démontrer, nous pouvons cliquer sur l'ensemble de données gnomad, puis obtenir le chemin S3 et afficher les fichiers sur la ligne de commande en collant https://registry.opendata.aws/broad-gnomad/
.