Ce référentiel relève de l'initiative NIH STRIDES. STRIDES vise à exploiter la puissance du cloud pour accélérer les découvertes biomédicales. Pour en savoir plus, visitez https://cloud.nih.gov.
L'objectif du NIH Cloud Lab est de rendre le Cloud facile et accessible pour vous, afin que vous puissiez consacrer moins de temps aux tâches administratives et vous concentrer davantage sur la recherche.
Utilisez ce référentiel pour découvrir comment utiliser Azure en explorant les ressources liées et en parcourant les didacticiels. Si vous êtes débutant, nous vous suggérons de commencer par la section Jumpstart du site Web Cloud Lab avant de revenir ici.
L'apprentissage automatique est un sous-domaine de l'intelligence artificielle qui se concentre sur le développement d'algorithmes et de modèles permettant aux ordinateurs d'apprendre et de faire des prédictions ou des décisions basées sur des données, sans être explicitement programmés. Les algorithmes d’intelligence artificielle et d’apprentissage automatique sont appliqués à diverses questions de recherche biomédicale, allant de la classification d’images à l’appel de variantes génomiques. Azure propose des services d'IA via Azure AI Studio et Azure Machine Learning.
Consultez notre suite de didacticiels pour en savoir plus sur Gen AI sur Azure qui met en avant les produits Azure tels que Azure AI Studio, Azure OpenAI et Azure AI Search et des outils externes comme Langchain. Ces blocs-notes vous expliquent comment déployer, entraîner et interroger des modèles, ainsi que comment implémenter des techniques telles que la génération augmentée par récupération (RAG). Si vous souhaitez configurer un modèle pour qu'il fonctionne avec des données structurées telles que des fichiers CSV ou JSON, nous avons créé des didacticiels qui vous expliquent comment indexer votre fichier CSV à l'aide de l'interface utilisateur Azure et interroger votre base de données à l'aide d'un bloc-notes dans Azure ML. Nous avons également un autre didacticiel qui exécute toutes les étapes nécessaires directement à partir d'un ordinateur portable.
Azure Health Data Services est un ensemble de services qui vous permet de stocker, traiter et analyser des données médicales dans Azure. Ces services sont conçus pour aider les organisations à connecter rapidement des sources et des formats de données de santé disparates, tels que les données structurées, d'imagerie et d'appareil, et à les normaliser pour qu'elles soient conservées dans le cloud. À la base, Azure Health Data Services possède la capacité de transformer et d’ingérer des données au format FHIR (Fast Healthcare Interoperability Resources). Cela vous permet de transformer des données de santé à partir de formats existants, tels que HL7v2 ou CDA, ou à partir de données IoT haute fréquence dans des formats propriétaires d'appareils, vers FHIR. Cela facilite la connexion des données stockées dans Azure Health Data Services avec des services de l’écosystème Azure, comme Azure Synapse Analytics et Azure Machine Learning (Azure ML).
Azure Health Data Services inclut la prise en charge de plusieurs normes de données de santé pour l'échange de données structurées et la possibilité de déployer plusieurs instances de différents types de services (FHIR, DICOM et MedTech) qui fonctionnent de manière transparente les unes avec les autres. Les services déployés dans un espace de travail partagent également une limite de conformité et des paramètres de configuration communs. Le produit évolue automatiquement pour répondre aux différentes demandes de vos charges de travail. Vous passez ainsi moins de temps à gérer l'infrastructure et plus de temps à générer des informations à partir des données de santé.
La copie des données de santé stockées sur le serveur Azure FHIR vers Synapse Analytics permet aux chercheurs de tirer parti d'un outil d'entreposage et d'analyse de données à l'échelle du cloud pour extraire des informations de leurs données et créer des pipelines de recherche évolutifs. Pour plus d’informations sur la manière d’effectuer cette exportation et ces analyses en aval, veuillez visiter ce référentiel.
Vous pouvez également voir des exemples pratiques d’utilisation de FHIR sur Azure, mais notez que vous devrez fournir vos propres fichiers VCF car ceux-ci ne sont pas fournis avec le contenu du didacticiel.
L'analyse d'imagerie médicale nécessite l'analyse de fichiers d'images volumineux et nécessite souvent un stockage élastique et un calcul accéléré. Microsoft Azure offre des capacités d'analyse d'imagerie médicale basées sur le cloud via ses API Azure Healthcare et ses solutions Azure Medical Imaging. Le service DICOM d'Azure permet le stockage, la gestion et le traitement sécurisés d'images médicales dans le cloud, à l'aide du format DICOM (Digital Imaging and Communications in Medicine) standard de l'industrie. Le service DICOM offre des fonctionnalités telles que la haute disponibilité, la reprise après sinistre et des options de stockage évolutives, ce qui en fait une solution idéale pour les pipelines qui doivent stocker, gérer et analyser de grandes quantités de données d'imagerie médicale. De plus, le serveur s'intègre à d'autres services Azure comme Azure ML, facilitant l'utilisation d'algorithmes avancés d'apprentissage automatique pour les tâches d'analyse d'images telles que la détection, la segmentation et la classification d'objets. Découvrez comment déployer le service ici.
Microsoft propose plusieurs blocs-notes d'imagerie médicale qui présentent différents cas d'utilisation d'imagerie médicale sur Azure Machine Learning. Ces blocs-notes présentent diverses techniques de science des données telles que le développement manuel de modèles avec PyTorch, l'apprentissage automatique automatisé et des exemples basés sur MLOPS pour automatiser le cycle de vie de l'apprentissage automatique dans des cas d'utilisation médicale, y compris le recyclage. Ces cahiers sont disponibles ici. Assurez-vous de sélectionner un noyau qui inclut Pytorch, sinon l'installation des dépendances peut être difficile. Notez également que vous devez utiliser une machine virtuelle GPU pour la plupart des cellules du notebook, mais vous pouvez créer plusieurs environnements de calcul et basculer entre eux selon vos besoins. Assurez-vous de les éteindre lorsque vous avez terminé.
Pour les utilisateurs de Cloud Lab intéressés par l'informatique clinique multimodale, DICOMcast offre la possibilité de synchroniser les données d'un service DICOM vers un service FHIR, permettant aux utilisateurs d'intégrer des données cliniques et d'imagerie. DICOMcast étend les cas d'utilisation des données de santé en prenant en charge à la fois une vue rationalisée des données longitudinales des patients et la capacité de créer efficacement des cohortes pour les études médicales, l'analyse et l'apprentissage automatique. Pour plus d'informations sur l'utilisation de DICOMcast, veuillez consulter la documentation de Microsoft ou le référentiel open source GitHub.
Pour les utilisateurs souhaitant former des modèles d'apprentissage profond sur des données d'imagerie, InnerEye-DeepLearning (IE-DL) est une boîte à outils développée par Microsoft pour former facilement des modèles d'apprentissage profond sur des images médicales 3D. Simple à exécuter localement et dans le cloud avec Azure Machine Learning, il permet aux utilisateurs de former et d'exécuter des inférences sur les éléments suivants : • Modèles de segmentation • Modèles de classification et de régression • N'importe quel modèle PyTorch Lightning, via une configuration d'apport de votre propre modèle. Ce projet existe dans un référentiel GitHub distinct.
Microsoft propose plusieurs offres liées à la génomique qui seront utiles à de nombreux utilisateurs de Cloud Lab. Pour un aperçu général, visitez le site de la communauté Microsoft Genomics. Vous pouvez également obtenir un aperçu des différentes options d'exécution sur ce blog et une analyse détaillée de Nextflow avec AWS Batch sur ce blog. Nous soulignons ici quelques services clés :
Les études d'association pangénomique (GWAS) sont des enquêtes à grande échelle qui analysent les génomes de nombreux individus afin d'identifier des variantes génétiques communes associées à des traits, des maladies ou d'autres phénotypes.
NCBI BLAST (Basic Local Alignment Search Tool) est un programme bioinformatique largement utilisé fourni par le National Center for Biotechnology Information (NCBI) qui compare des séquences nucléotidiques ou protéiques à une grande base de données pour identifier des séquences similaires et déduire des relations évolutives, des annotations fonctionnelles et structurelles. information.
L'analyse RNA-seq est une méthode de séquençage à haut débit qui permet la mesure et la caractérisation des niveaux d'expression génique et de la dynamique du transcriptome. Les flux de travail sont généralement exécutés à l'aide de gestionnaires de flux de travail et les résultats finaux peuvent souvent être visualisés dans des blocs-notes.
Le séquençage de l'ARN unicellulaire (scRNA-seq) est une technique qui permet d'analyser l'expression des gènes au niveau de chaque cellule, fournissant des informations sur l'hétérogénéité cellulaire, identifiant des types de cellules rares et révélant la dynamique cellulaire et les états fonctionnels au sein de systèmes biologiques complexes.
L'analyse de séquences d'ADN à lecture longue implique l'analyse des lectures de séquençage d'une longueur généralement supérieure à 10 000 paires de bases (pb), par rapport au séquençage à lecture courte où les lectures mesurent environ 150 pb. Oxford Nanopore propose une offre assez complète de didacticiels sur ordinateur portable pour gérer les données à lecture longue afin d'effectuer diverses choses, notamment l'appel de variantes, l'ARNseq, l'analyse Sars-Cov-2 et bien plus encore. Accédez aux notebooks ici et sur GitHub. Ces ordinateurs portables s'attendent à ce que vous exécutiez localement et que vous accédiez au serveur de ordinateurs portables epi2me. Pour les exécuter dans Cloud Lab, ignorez la première cellule qui se connecte au serveur, puis le reste du notebook devrait fonctionner correctement, avec quelques ajustements. Oxford Nanopore propose également une multitude de flux de travail Nextflow qui vous permettront d'exécuter une variété de pipelines de lecture longue.
Ces ensembles de données accessibles au public peuvent vous faire gagner du temps sur la découverte et la préparation des données en étant organisés et prêts à être utilisés dans vos flux de travail.