Dieses Repository fällt unter die NIH STRIDES-Initiative. STRIDES zielt darauf ab, die Leistungsfähigkeit der Cloud zu nutzen, um biomedizinische Entdeckungen zu beschleunigen. Um mehr zu erfahren, besuchen Sie https://cloud.nih.gov.
Ziel des NIH Cloud Lab ist es, die Cloud für Sie einfach und zugänglich zu machen, sodass Sie weniger Zeit mit Verwaltungsaufgaben verbringen und sich mehr auf die Forschung konzentrieren können.
Nutzen Sie dieses Repository, um mehr über die Verwendung von Azure zu erfahren, indem Sie die verknüpften Ressourcen erkunden und die Tutorials durchgehen. Wenn Sie ein Anfänger sind, empfehlen wir Ihnen, mit dem Jumpstart-Bereich auf der Cloud Lab-Website zu beginnen, bevor Sie hierher zurückkehren.
Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz, das sich auf die Entwicklung von Algorithmen und Modellen konzentriert, die es Computern ermöglichen, aus Daten zu lernen und Vorhersagen oder Entscheidungen auf der Grundlage von Daten zu treffen, ohne explizit programmiert zu werden. Algorithmen der künstlichen Intelligenz und des maschinellen Lernens werden auf eine Vielzahl biomedizinischer Forschungsfragen angewendet, die von der Bildklassifizierung bis zur genomischen Variantenaufrufung reichen. Azure bietet KI-Dienste über Azure AI Studio und Azure Machine Learning an.
Sehen Sie sich unsere Reihe von Tutorials an, um mehr über Gen AI auf Azure zu erfahren, die Azure-Produkte wie Azure AI Studio, Azure OpenAI und Azure AI Search sowie externe Tools wie Langchain hervorheben. Diese Notebooks führen Sie durch die Bereitstellung, das Training und die Abfrage von Modellen sowie durch die Implementierung von Techniken wie Retrieval-Augmented Generation (RAG). Wenn Sie daran interessiert sind, ein Modell für die Arbeit mit strukturierten Daten wie CSV- oder JSON-Dateien zu konfigurieren, haben wir Tutorials erstellt, die Sie durch die Indizierung Ihrer CSV-Datei mithilfe der Azure-Benutzeroberfläche und die Abfrage Ihrer Datenbank mithilfe eines Notebooks in Azure ML führen. Wir haben auch ein weiteres Tutorial, das alle notwendigen Schritte direkt von einem Notebook aus ausführt.
Azure Health Data Services ist eine Reihe von Diensten, die es Ihnen ermöglichen, medizinische Daten in Azure zu speichern, zu verarbeiten und zu analysieren. Diese Dienste sollen Organisationen dabei helfen, unterschiedliche Gesundheitsdatenquellen und -formate, wie z. B. strukturierte Daten, Bilddaten und Gerätedaten, schnell zu verbinden und für die dauerhafte Speicherung in der Cloud zu normalisieren. Im Kern verfügen Azure Health Data Services über die Fähigkeit, Daten in das FHIR-Format (Fast Healthcare Interoperability Resources) umzuwandeln und aufzunehmen. Dadurch können Sie Gesundheitsdaten aus älteren Formaten wie HL7v2 oder CDA oder von Hochfrequenz-IoT-Daten in geräteeigenen Formaten in FHIR umwandeln. Dies erleichtert die Verbindung von in Azure Health Data Services gespeicherten Daten mit Diensten im gesamten Azure-Ökosystem, wie Azure Synapse Analytics und Azure Machine Learning (Azure ML).
Azure Health Data Services umfasst die Unterstützung mehrerer Gesundheitsdatenstandards für den Austausch strukturierter Daten und die Möglichkeit, mehrere Instanzen verschiedener Diensttypen (FHIR, DICOM und MedTech) bereitzustellen, die nahtlos miteinander zusammenarbeiten. Innerhalb eines Arbeitsbereichs bereitgestellte Dienste haben außerdem eine gemeinsame Compliance-Grenze und gemeinsame Konfigurationseinstellungen. Das Produkt skaliert automatisch, um den unterschiedlichen Anforderungen Ihrer Arbeitslasten gerecht zu werden, sodass Sie weniger Zeit mit der Verwaltung der Infrastruktur verbringen und mehr Zeit für die Gewinnung von Erkenntnissen aus Gesundheitsdaten haben.
Durch das Kopieren von im Azure FHIR-Server gespeicherten Gesundheitsdaten in Synapse Analytics können Forscher ein Data-Warehousing- und Analysetool im Cloud-Maßstab nutzen, um Erkenntnisse aus ihren Daten zu gewinnen und skalierbare Forschungspipelines aufzubauen. Informationen zur Durchführung dieses Exports und nachgelagerter Analysen finden Sie in diesem Repository.
Sie können sich auch praktische Beispiele für die Verwendung von FHIR in Azure ansehen. Beachten Sie jedoch, dass Sie Ihre eigenen VCF-Dateien bereitstellen müssen, da diese nicht im Lernprogramminhalt enthalten sind.
Die Analyse medizinischer Bildgebung erfordert die Analyse großer Bilddateien und erfordert häufig elastische Speicherung und beschleunigte Datenverarbeitung. Microsoft Azure bietet über seine Azure Healthcare APIs und Azure Medical Imaging-Lösungen cloudbasierte Analysefunktionen für medizinische Bildgebung. Der DICOM-Dienst von Azure ermöglicht die sichere Speicherung, Verwaltung und Verarbeitung medizinischer Bilder in der Cloud unter Verwendung des branchenüblichen DICOM-Formats (Digital Imaging and Communications in Medicine). Der DICOM-Dienst bietet Funktionen wie Hochverfügbarkeit, Notfallwiederherstellung und skalierbare Speicheroptionen und ist damit eine ideale Lösung für Pipelines, die große Mengen medizinischer Bilddaten speichern, verwalten und analysieren müssen. Darüber hinaus lässt sich der Server in andere Azure-Dienste wie Azure ML integrieren und erleichtert so die Verwendung fortschrittlicher Algorithmen für maschinelles Lernen für Bildanalyseaufgaben wie Objekterkennung, Segmentierung und Klassifizierung. Lesen Sie hier, wie Sie den Dienst bereitstellen.
Microsoft verfügt über mehrere Notebooks zur medizinischen Bildgebung, die verschiedene Anwendungsfälle für medizinische Bildgebung auf Azure Machine Learning vorstellen. Diese Notebooks demonstrieren verschiedene datenwissenschaftliche Techniken wie die manuelle Modellentwicklung mit PyTorch, automatisiertes maschinelles Lernen und MLOPS-basierte Beispiele für die Automatisierung des maschinellen Lernlebenszyklus in medizinischen Anwendungsfällen, einschließlich Umschulung. Diese Notizbücher sind hier erhältlich. Stellen Sie sicher, dass Sie einen Kernel auswählen, der Pytorch enthält, da sonst die Installation von Abhängigkeiten eine Herausforderung sein kann. Beachten Sie auch, dass Sie für die meisten Notebook-Zellen eine GPU-VM verwenden müssen, Sie können jedoch mehrere Rechenumgebungen erstellen und bei Bedarf zwischen diesen wechseln. Schalten Sie sie unbedingt aus, wenn Sie fertig sind.
Für Cloud Lab-Benutzer, die an multimodaler klinischer Informatik interessiert sind, bietet DICOMcast die Möglichkeit, Daten von einem DICOM-Dienst mit einem FHIR-Dienst zu synchronisieren, sodass Benutzer klinische und bildgebende Daten integrieren können. DICOMcast erweitert die Anwendungsfälle für Gesundheitsdaten, indem es sowohl eine optimierte Ansicht longitudinaler Patientendaten als auch die Möglichkeit unterstützt, effektiv Kohorten für medizinische Studien, Analysen und maschinelles Lernen zu erstellen. Weitere Informationen zur Verwendung von DICOMcast finden Sie in der Dokumentation von Microsoft oder im Open-Source-GitHub-Repository.
Für Benutzer, die Deep-Learning-Modelle auf Bilddaten trainieren möchten, ist InnerEye-DeepLearning (IE-DL) eine Toolbox, die Microsoft für das einfache Training von Deep-Learning-Modellen auf medizinischen 3D-Bildern entwickelt hat. Mit Azure Machine Learning lässt es sich einfach sowohl lokal als auch in der Cloud ausführen und ermöglicht Benutzern das Trainieren und Ausführen von Inferenzen für Folgendes: • Segmentierungsmodelle • Klassifizierungs- und Regressionsmodelle • Jedes PyTorch Lightning-Modell über ein Bring-Your-Own-Model-Setup Dieses Projekt existiert in einem separaten GitHub-Repository.
Microsoft verfügt über mehrere Angebote im Zusammenhang mit der Genomik, die für viele Cloud Lab-Benutzer nützlich sein werden. Einen umfassenden Überblick finden Sie auf der Website der Microsoft Genomics Community. Außerdem erhalten Sie in diesem Blog einen Überblick über verschiedene Ausführungsoptionen und in diesem Blog eine detaillierte Analyse für Nextflow mit AWS Batch. Wir heben hier einige wichtige Dienstleistungen hervor:
Genomweite Assoziationsstudien (GWAS) sind groß angelegte Untersuchungen, die das Genom vieler Individuen analysieren, um häufige genetische Varianten zu identifizieren, die mit Merkmalen, Krankheiten oder anderen Phänotypen verbunden sind.
NCBI BLAST (Basic Local Alignment Search Tool) ist ein weit verbreitetes Bioinformatikprogramm des National Center for Biotechnology Information (NCBI), das Nukleotid- oder Proteinsequenzen mit einer großen Datenbank vergleicht, um ähnliche Sequenzen zu identifizieren und auf evolutionäre Beziehungen, funktionale Anmerkungen und strukturelle Rückschlüsse zu schließen Information.
Die RNA-seq-Analyse ist eine Hochdurchsatz-Sequenzierungsmethode, die die Messung und Charakterisierung von Genexpressionsniveaus und Transkriptomdynamiken ermöglicht. Workflows werden in der Regel mit Workflow-Managern ausgeführt und die Endergebnisse können oft in Notebooks visualisiert werden.
Einzelzell-RNA-Sequenzierung (scRNA-seq) ist eine Technik, die die Analyse der Genexpression auf der Ebene einzelner Zellen ermöglicht, Einblicke in die zelluläre Heterogenität liefert, seltene Zelltypen identifiziert und zelluläre Dynamiken und Funktionszustände innerhalb komplexer biologischer Systeme aufdeckt.
Bei der Long-Read-DNA-Sequenzanalyse werden Sequenzierungs-Reads analysiert, die typischerweise länger als 10.000 Basenpaare (bp) sind, im Vergleich zur Short-Read-Sequenzierung, bei der die Reads etwa 150 bp lang sind. Oxford Nanopore bietet ein ziemlich umfassendes Angebot an Notebook-Tutorials für den Umgang mit Long-Read-Daten für eine Vielzahl von Aufgaben, darunter Variantenaufruf, RNAseq, Sars-Cov-2-Analyse und vieles mehr. Zugriff auf die Notizbücher hier und auf GitHub. Bei diesen Notebooks wird davon ausgegangen, dass Sie lokal ausgeführt werden und auf den epi2me-Notebook-Server zugreifen. Um sie in Cloud Lab auszuführen, überspringen Sie die erste Zelle, die eine Verbindung zum Server herstellt, und dann sollte der Rest des Notebooks mit ein paar Optimierungen ordnungsgemäß funktionieren. Oxford Nanopore bietet außerdem eine Vielzahl von Nextflow-Workflows, mit denen Sie eine Vielzahl langer Lesepipelines ausführen können.
Mit diesen öffentlich verfügbaren Datensätzen können Sie Zeit bei der Datenermittlung und -vorbereitung sparen, da sie kuratiert und sofort in Ihren Arbeitsabläufen verwendet werden können.