Es gibt viele Möglichkeiten, Workflows auf GCP auszuführen. Hier listen wir einige Möglichkeiten auf, die jeweils für unterschiedliche Forschungsziele funktionieren können. Denken Sie beim Durchgehen der verschiedenen Tutorials unten darüber nach, wie Sie diesen Workflow mit einer der anderen hier aufgeführten Methoden möglicherweise effizienter ausführen können.
screen
oder als als Metadaten angehängtes Startskript auszuführen.managed notebooks
und user managed notebooks
gibt. Die managed notebooks
verfügen über mehr Funktionen und können geplant werden, geben Ihnen jedoch weniger Kontrolle über Conda-Umgebungen/-Installationen.Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz, das sich auf die Entwicklung von Algorithmen und Modellen konzentriert, die es Computern ermöglichen, aus Daten zu lernen und Vorhersagen oder Entscheidungen auf der Grundlage von Daten zu treffen, ohne explizit programmiert zu werden. Maschinelles Lernen auf GCP findet im Allgemeinen innerhalb von VertexAI statt. In diesem Google-Crashkurs erfahren Sie mehr über maschinelles Lernen auf GCP. Probieren Sie für praktische Beispiele dieses von der San Francisco State University entwickelte Modul oder dieses von der University of Arkasas für das NIGMS Sandbox Project entwickelte Modul aus.
Da nun das Zeitalter der generativen KI (Gen AI) angebrochen ist, hat Google eine Vielzahl von Gen AI-Angeboten innerhalb der Vertex AI Suite veröffentlicht. Einige Beispiele dafür, wozu generative KI-Modelle in der Lage sind, sind das Extrahieren gewünschter Informationen aus Text, das Umwandeln von Sprache in Text, das Generieren von Bildern aus Beschreibungen und umgekehrt und vieles mehr. Die Vertex AI Studio-Konsole von Vertex AI ermöglicht dem Benutzer das schnelle Erstellen, Testen und Trainieren generativer KI-Modelle in der Cloud in einer sicheren Umgebung, siehe unsere Übersicht in diesem Tutorial. Das Studio verfügt außerdem über gebrauchsfertige Modelle, die alle im Modellgarten enthalten sind. Diese Modelle reichen von Grundlagenmodellen über feinabstimmbare Modelle bis hin zu aufgabenspezifischen Lösungen.
Bei der medizinischen Bildanalyse handelt es sich um die Anwendung rechnerischer Algorithmen und Techniken, um aus medizinischen Bildern aussagekräftige Informationen für Diagnose-, Behandlungsplanungs- und Forschungszwecke zu extrahieren. Die Analyse medizinischer Bilder erfordert große Bilddateien und oft elastische Speicherung und beschleunigte Berechnungen.
Die genetischen Sequenzdaten der nächsten Generation werden im NCBI Sequence Read Archive (SRA) gespeichert. Sie können mit dem SRA Toolkit auf diese Daten zugreifen. Wir führen Sie mithilfe dieses Notizbuchs durch die einzelnen Schritte und zeigen Ihnen, wie Sie mit BigQuery Ihre Beitrittsliste erstellen. Sie können BigQuery auch verwenden, um mithilfe dieser Einrichtungsanleitung und dieser Abfrageanleitung eine Liste mit herunterzuladenden Zugriffen zu erstellen. Weitere Beispielnotizbücher finden Sie in diesem NCBI-Repo. Wir empfehlen insbesondere dieses Notizbuch (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb), das ausführlicher auf die Verwendung von BigQuery für den Zugriff auf die Ergebnisse der SRA-Taxonomieanalyse eingeht Werkzeug, das aufgrund von Kontamination, Fehlern oder weil Proben metagenomischer Natur sind, häufig vom vom Benutzer eingegebenen Artennamen abweicht. Darüber hinaus befasst sich dieses Notebook ausführlich mit dem Parsen der BigQuery-Ergebnisse und gibt Ihnen möglicherweise einige gute Ideen für die Suche nach Beispielen aus SRA. Die SRA-Metadaten- und Taxonomieanalysen befinden sich in separaten BigQuery-Tabellen. Wie Sie diese beiden Tabellen mithilfe von SQL verknüpfen, erfahren Sie in dieser PowerPoint-Präsentation oder in unserem Tutorial hier. Schließlich hat NCBI diesen Workshop veröffentlicht, der eine Vielzahl von BigQuery-Anwendungen mit NCBI-Datensätzen durchführt.
Unter Genomic Variant Calling versteht man den Prozess der Identifizierung und Charakterisierung genetischer Variationen anhand von DNA-Sequenzierungsdaten, um Unterschiede in der genetischen Ausstattung eines Individuums zu verstehen.
Die Ausgabe von Arbeitsabläufen zum Aufrufen genomischer Varianten ist eine Datei im Variantenaufrufformat (VCF). Hierbei handelt es sich häufig um große, strukturierte Datendateien, die mit Datenbankabfragetools wie Big Query durchsucht werden können.
Genomweite Assoziationsstudien (GWAS) sind groß angelegte Untersuchungen, die das Genom vieler Individuen analysieren, um häufige genetische Varianten zu identifizieren, die mit Merkmalen, Krankheiten oder anderen Phänotypen verbunden sind.
Unter Proteomik versteht man die Untersuchung des gesamten Satzes von Proteinen in einer Zelle, einem Gewebe oder einem Organismus mit dem Ziel, deren Struktur, Funktion und Wechselwirkungen zu verstehen, um Erkenntnisse über biologische Prozesse und Krankheiten zu gewinnen. Obwohl die meisten primären proteomischen Analysen auf proprietären Softwareplattformen erfolgen, finden viele Sekundäranalysen in Jupyter- oder R-Notebooks statt. Wir geben hier einige Beispiele:
Custom container
aus und fügen Sie dann für Docker container image
Folgendes ein: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.Die RNA-seq-Analyse ist eine Hochdurchsatz-Sequenzierungsmethode, die die Messung und Charakterisierung von Genexpressionsniveaus und Transkriptomdynamiken ermöglicht. Workflows werden in der Regel mit Workflow-Managern ausgeführt und die Endergebnisse können oft in Notebooks visualisiert werden.
Bei der Transkriptomassemblierung handelt es sich um den Prozess der Rekonstruktion des vollständigen Satzes von RNA-Transkripten in einer Zelle oder einem Gewebe aus fragmentierten Sequenzierungsdaten, der wertvolle Einblicke in die Genexpression und Funktionsanalyse liefert.
Einzelzell-RNA-Sequenzierung (scRNA-seq) ist eine Technik, die die Analyse der Genexpression auf der Ebene einzelner Zellen ermöglicht, Einblicke in die zelluläre Heterogenität liefert, seltene Zelltypen identifiziert und zelluläre Dynamiken und Funktionszustände innerhalb komplexer biologischer Systeme aufdeckt.
ATAC-seq ist eine Technik, die es Wissenschaftlern ermöglicht, zu verstehen, wie DNA in Zellen verpackt ist, indem sie die DNA-Regionen identifiziert, die zugänglich und möglicherweise an der Genregulation beteiligt sind. – Dieses Modul führt Sie durch die Arbeit mit einem ATACseq- und Single-Cell-ATACseq-Workflow in Google Cloud. Das Modul wurde vom University of Nebraska Medical Center für das NIGMS Sandbox Project entwickelt.
Als eine der am häufigsten vorkommenden und am besten untersuchten epigenetischen Modifikationen spielt die DNA-Methylierung eine wesentliche Rolle bei der normalen Zellentwicklung und hat verschiedene Auswirkungen auf die Transkription, die Genomstabilität und die DNA-Verpackung in Zellen. Methylseq ist eine Technik zur Identifizierung methylierter Regionen des Genoms.
Bei der Metagenomik handelt es sich um die Untersuchung von genetischem Material, das direkt aus Umweltproben entnommen wird und die Erforschung mikrobieller Gemeinschaften, ihrer Vielfalt und ihres funktionellen Potenzials ermöglicht, ohne dass eine Laborkultur erforderlich ist. – Dieses Modul führt Sie durch die Durchführung einer metagenomischen Analyse mithilfe der Befehlszeile und Nextflow. Das Modul wurde von der University of South Dakota im Rahmen des NIGMS Sandbox Project entwickelt.
Bei der multiomischen Analyse werden Daten über verschiedene Modalitäten hinweg (z. B. genomisch, transkriptomisch, phänotypisch) integriert, um additive Erkenntnisse zu gewinnen.
Unter Biomarker-Entdeckung versteht man den Prozess der Identifizierung spezifischer Moleküle oder Merkmale, die als Indikatoren für biologische Prozesse, Krankheiten oder Behandlungsreaktionen dienen und bei der Diagnose, Prognose und personalisierten Medizin helfen können. Die Entdeckung von Biomarkern erfolgt in der Regel durch eine umfassende Analyse verschiedener Datentypen wie Genomik, Proteomik, Metabolomik und klinische Daten. Dabei kommen fortschrittliche Techniken wie Hochdurchsatz-Screening, Bioinformatik und statistische Analysen zum Einsatz, um Muster oder Signaturen zu identifizieren, die zwischen gesunden und gesunden Menschen unterscheiden erkrankte Personen oder Responder und Non-Responder auf bestimmte Behandlungen.
NCBI BLAST (Basic Local Alignment Search Tool) ist ein weit verbreitetes Bioinformatikprogramm des National Center for Biotechnology Information (NCBI), das Nukleotid- oder Proteinsequenzen mit einer großen Datenbank vergleicht, um ähnliche Sequenzen zu identifizieren und auf evolutionäre Beziehungen, funktionale Anmerkungen und strukturelle Rückschlüsse zu schließen Information.
Bei der Long-Read-DNA-Sequenzanalyse werden Sequenzierungs-Reads analysiert, die typischerweise länger als 10.000 Basenpaare (bp) sind, im Vergleich zur Short-Read-Sequenzierung, bei der die Reads etwa 150 bp lang sind. Oxford Nanopore bietet ein ziemlich umfassendes Angebot an Notebook-Tutorials für den Umgang mit Long-Read-Daten für eine Vielzahl von Aufgaben, darunter Variantenaufruf, RNAseq, Sars-Cov-2-Analyse und vieles mehr. Eine Liste und Beschreibung der Notebooks finden Sie hier oder Sie können das GitHub-Repo klonen. Beachten Sie, dass diese Notebooks davon ausgehen, dass Sie lokal ausgeführt werden und auf den epi2me-Notebook-Server zugreifen. Um sie in Cloud Lab auszuführen, überspringen Sie die erste Zelle, die eine Verbindung zum Server herstellt, und dann sollte der Rest des Notebooks mit ein paar Optimierungen ordnungsgemäß funktionieren.
Das Accelerating Therapeutics for Opportunities in Medicine (ATOM)-Konsortium hat eine Reihe von Jupyter-Notizbüchern erstellt, die Sie durch den ATOM-Ansatz zur Arzneimittelentwicklung führen.
Diese Notizbücher wurden für die Ausführung in Google Colab erstellt. Wenn Sie sie also in Google Cloud ausführen, müssen Sie einige Änderungen vornehmen. Erstens empfehlen wir Ihnen, ein von Google verwaltetes Notebook anstelle eines vom Benutzer verwalteten Notebooks zu verwenden, da auf den von Google verwalteten Notebooks bereits Tensorflow und andere Abhängigkeiten installiert sind. Stellen Sie sicher, dass Sie eine GPU an Ihre Instanz anschließen (T4 ist in Ordnung). Außerdem müssen Sie %tensorflow_version 2.x
auskommentieren, da es sich um einen Colab-spezifischen Befehl handelt. Sie müssen bei Bedarf auch einige Pakete pip install
. Wenn bei deepchem
Fehler auftreten, versuchen Sie pip install --pre deepchem[tensorflow]
und/oder pip install --pre deepchem[torch]
auszuführen. Außerdem benötigen einige Notebooks einen Tensorflow-Kernel, während andere Pytorch benötigen. Möglicherweise stoßen Sie auch auf einen Pandas-Fehler. Wenden Sie sich an die ATOM GitHub-Entwickler, um die beste Lösung für dieses Problem zu finden.
Sie können direkt mit Google Batch interagieren, um Befehle zu übermitteln, oder häufiger über Orchestrierungs-Engines wie Nextflow und Cromwell usw. interagieren. Wir haben Tutorials, die Google Batch mit Nextflow verwenden, wo wir auch die nf-core Methylseq-Pipeline ausführen sowie mehrere aus der NIGMS-Sandbox, einschließlich Transkriptomassemblierung, Multiomics, Methylseq und Metagenomik.
Die Life Science API ist auf GCP veraltet und wird ab dem 8. Juli 2025 nicht mehr auf der Plattform verfügbar sein. Wir empfehlen stattdessen die Verwendung von Google Batch. Derzeit können Sie noch direkt mit der Life Sciences-API interagieren, um Befehle zu übermitteln, oder häufiger über Orchestrierungs-Engines wie Snakemake mit ihr interagieren. Derzeit unterstützt dieser Workflow-Manager nur die Life Sciences-API.
Google verfügt über zahlreiche öffentliche Datensätze, die Sie für Ihre Tests verwenden können. Diese können hier eingesehen und über BigQuery oder direkt aus dem Cloud-Bucket abgerufen werden. Um beispielsweise Phase-3-1k-Genome anzuzeigen, geben Sie in der Befehlszeile gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.