Es gibt viele Möglichkeiten, Workflows auf AWS auszuführen. Hier listen wir einige Möglichkeiten auf, die jeweils für unterschiedliche Forschungsziele funktionieren können. Denken Sie beim Durchgehen der verschiedenen Tutorials unten darüber nach, wie Sie diesen Workflow mit einer der anderen hier aufgeführten Methoden möglicherweise effizienter ausführen können. Wenn Sie mit den hier aufgeführten Begriffen oder Konzepten nicht vertraut sind, lesen Sie bitte die AWS Jumpstart-Seite.
screen
oder als als Metadaten angehängtes Startskript auszuführen. Weitere Informationen zum Ausführen einer Pipeline mit EC2 finden Sie im GWAS-Tutorial unten.Für viele dieser Tutorials benötigen Sie kurzfristige Zugriffsschlüssel, um Ressourcen zu erstellen und zu verwenden, insbesondere wenn in einem Tutorial eine „Zugriffsschlüssel-ID“ und ein „geheimer Schlüssel“ erforderlich sind. In diesem Handbuch erfahren Sie, wie Sie kurzfristige Zugriffsschlüssel erhalten und verwenden. Wenn Sie ein mit dem NIH verbundener Forscher sind, also nicht am NIH arbeiten, aber über ein Cloud Lab-Konto verfügen, haben Sie keinen Zugriff auf Schlüssel. Wenn Sie ein Tutorial nicht abschließen können, wenden Sie sich unter [email protected] an uns
Bitte beachten Sie auch, dass GPU-Maschinen mehr kosten als die meisten CPU-Maschinen. Fahren Sie diese Maschinen daher nach der Verwendung unbedingt herunter oder wenden Sie eine EC2-Lebenszykluskonfiguration an. Möglicherweise stoßen Sie auch auf Servicekontingente, um Sie vor der versehentlichen Verwendung teurer Maschinentypen zu schützen. Wenn das passiert und Sie dennoch einen bestimmten Instanztyp verwenden möchten, befolgen Sie diese Anweisungen.
Maschinelles Lernen ist ein Teilgebiet der künstlichen Intelligenz, das sich auf die Entwicklung von Algorithmen und Modellen konzentriert, die es Computern ermöglichen, aus Daten zu lernen und Vorhersagen oder Entscheidungen auf der Grundlage von Daten zu treffen, ohne explizit programmiert zu werden. Algorithmen der künstlichen Intelligenz und des maschinellen Lernens werden auf eine Vielzahl biomedizinischer Forschungsfragen angewendet, die von der Bildklassifizierung bis zur genomischen Variantenaufrufung reichen. AWS verfügt über eine lange Liste verfügbarer KI/ML-Tutorials und wir haben hier eine Liste zusammengestellt. Die jüngste Entwicklung konzentriert sich auf generative KI, einschließlich Anwendungsfällen wie dem Extrahieren von Informationen aus Text, der Umwandlung von Sprache in Text und der Generierung von Bildern aus Text. Sagemaker Studio ermöglicht dem Benutzer das schnelle Erstellen, Testen und Trainieren generativer KI-Modelle und verfügt über gebrauchsfertige Modelle, die alle in JumpStart enthalten sind. Diese Modelle reichen von Grundlagenmodellen über feinabstimmbare Modelle bis hin zu aufgabenspezifischen Lösungen.
Klinische Informatik, auch Gesundheitsinformatik oder medizinische Informatik genannt, ist ein interdisziplinäres Gebiet, das Data Science auf Gesundheitsdaten anwendet, um die Patientenversorgung zu verbessern, klinische Prozesse zu verbessern und medizinische Forschung zu erleichtern. Dabei geht es häufig um die Integration verschiedener Datentypen, darunter elektronische Gesundheitsakten, demografische Daten oder Umweltdaten. AWS bietet zwei On-Demand-Workshops an, die Sie durch AWS HealthLake für die Datenanalyse zur Bevölkerungsgesundheit führen. Dieser erste Workshop zeigt Ihnen, wie Sie Daten in HealthLake aufnehmen, diese Daten mit Athena abfragen, diese Daten mit QuickSight visualisieren, dann FHIR-Daten mit Umgebungsdaten verbinden und den kombinierten Datensatz visualisieren. Der zweite Workshop erfasst auch Daten in HealthLake, visualisiert dann Daten zu medizinischen Geräten, fasst mithilfe von KI klinische Notizen zusammen und transkribiert dann klinische Audiodateien und fasst sie zusammen.
Die genetischen Sequenzdaten der nächsten Generation werden im NCBI Sequence Read Archive (SRA) gespeichert. Sie können mit dem SRA Toolkit auf diese Daten zugreifen. Wir führen Sie mithilfe dieses Notizbuchs durch die einzelnen Schritte und zeigen Ihnen außerdem, wie Sie Athena-Tabellen einrichten und durchsuchen, um eine Beitrittsliste zu erstellen. Weitere Informationen zu den verfügbaren Datensatztabellen finden Sie auch in diesem Leitfaden. Weitere Beispielnotizbücher finden Sie in diesem NCBI-Repo. Wir empfehlen insbesondere dieses Notizbuch (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb), das ausführlicher auf die Verwendung von Athena für den Zugriff auf die Ergebnisse der SRA-Taxonomischen Analyse eingeht Werkzeug, das aufgrund von Kontamination, Fehlern oder weil Proben metagenomischer Natur sind, häufig vom vom Benutzer eingegebenen Artennamen abweicht.
Genomweite Assoziationsstudien (GWAS) sind groß angelegte Untersuchungen, die das Genom vieler Individuen analysieren, um häufige genetische Varianten zu identifizieren, die mit Merkmalen, Krankheiten oder anderen Phänotypen verbunden sind.
Die Analyse medizinischer Bildgebung erfordert die Analyse großer Bilddateien und erfordert häufig elastische Speicherung und beschleunigte Datenverarbeitung.
Die RNA-seq-Analyse ist eine Hochdurchsatz-Sequenzierungsmethode, die die Messung und Charakterisierung von Genexpressionsniveaus und Transkriptomdynamiken ermöglicht. Workflows werden in der Regel mit Workflow-Managern ausgeführt und die Endergebnisse können oft in Notebooks visualisiert werden.
Einzelzell-RNA-Sequenzierung (scRNA-seq) ist eine Technik, die die Analyse der Genexpression auf der Ebene einzelner Zellen ermöglicht, Einblicke in die zelluläre Heterogenität liefert, seltene Zelltypen identifiziert und zelluläre Dynamiken und Funktionszustände innerhalb komplexer biologischer Systeme aufdeckt.
NCBI BLAST (Basic Local Alignment Search Tool) ist ein weit verbreitetes Bioinformatikprogramm des National Center for Biotechnology Information (NCBI), das Nukleotid- oder Proteinsequenzen mit einer großen Datenbank vergleicht, um ähnliche Sequenzen zu identifizieren und auf evolutionäre Beziehungen, funktionale Anmerkungen und strukturelle Rückschlüsse zu schließen Information. Das NCBI-Team hat eine Version von BLAST für die Cloud namens ElasticBLAST geschrieben, und Sie können hier alles darüber lesen. Im Wesentlichen hilft Ihnen ElasticBLAST dabei, BLAST-Jobs an AWS Batch zu senden und die Ergebnisse zurück in S3 zu schreiben. Probieren Sie gerne das Beispiel-Tutorial in Cloud Shell aus oder probieren Sie unsere Notebook-Version aus.
Sie können mehrere Proteinfaltungsalgorithmen ausführen, einschließlich Alpha Fold auf AWS. Da die Datenbanken so groß sind, ist die Einrichtung normalerweise ziemlich schwierig, aber AWS hat einen StackFormation-Stack erstellt, der das Hochfahren aller für die Ausführung von Alpha Fold und anderen Proteinfaltungsalgorithmen erforderlichen Ressourcen automatisiert. Sie können sich hier über die AWS-Ressourcen informieren und die GitHub-Seite hier ansehen. Damit dies funktioniert, müssen Sie Ihre Sicherheitsgruppen gemäß diesen Anweisungen ändern. Sie müssen der Rolle, die CloudFormation verwendet, wahrscheinlich auch zusätzliche Berechtigungen erteilen. Wenn Sie nicht weiterkommen, wenden Sie sich an [email protected]. Sie können ESMFold auch mit diesem Tutorial ausführen.
Bei der Long-Read-DNA-Sequenzanalyse werden Sequenzierungs-Reads analysiert, die typischerweise länger als 10.000 Basenpaare (bp) sind, im Vergleich zur Short-Read-Sequenzierung, bei der die Reads etwa 150 bp lang sind. Oxford Nanopore bietet ein ziemlich umfassendes Angebot an Notebook-Tutorials für den Umgang mit Long-Read-Daten für eine Vielzahl von Aufgaben, darunter Variantenaufruf, RNAseq, Sars-Cov-2-Analyse und vieles mehr. Hier gelangen Sie zu den Notizbüchern. Bei diesen Notebooks wird davon ausgegangen, dass Sie lokal ausgeführt werden und auf den epi2me-Notebook-Server zugreifen. Um sie in Cloud Lab auszuführen, überspringen Sie die erste Zelle, die eine Verbindung zum Server herstellt, und dann sollte der Rest des Notebooks mit ein paar Optimierungen ordnungsgemäß funktionieren. Wenn Sie Notebooks nur ausprobieren möchten, sollten Sie nicht damit beginnen. Wenn Sie an der Analyse langer Lesesequenzen interessiert sind, ist möglicherweise eine Fehlerbehebung erforderlich, um diese an die Cloud Lab-Umgebung anzupassen. Möglicherweise müssen Sie sie sogar in einem neuen Notizbuch umschreiben, indem Sie die Befehle anpassen. Wenden Sie sich gerne an unser Support-Team, wenn Sie Hilfe benötigen.
Das Accelerating Therapeutics for Opportunities in Medicine (ATOM)-Konsortium hat eine Reihe von Jupyter-Notizbüchern erstellt, die Sie durch den ATOM-Ansatz zur Arzneimittelentwicklung führen.
Diese Notebooks wurden für die Ausführung in Google Colab erstellt. Wenn Sie sie also in AWS ausführen, müssen Sie einige Änderungen vornehmen. Zunächst empfehlen wir Ihnen, ein Sagemaker Studio-Notebook anstelle eines benutzerverwalteten Notebooks zu verwenden, da dort Tensorflow und andere Abhängigkeiten installiert sind. Stellen Sie sicher, dass Sie eine GPU an Ihre Instanz anschließen (T4 ist in Ordnung). Außerdem müssen Sie %tensorflow_version 2.x
auskommentieren, da es sich um einen Colab-spezifischen Befehl handelt. Sie müssen bei Bedarf auch einige Pakete pip install
. Wenn bei deepchem
Fehler auftreten, versuchen Sie pip install --pre deepchem[tensorflow]
und/oder pip install --pre deepchem[torch]
auszuführen. Außerdem benötigen einige Notebooks einen Tensorflow-Kernel, während andere Pytorch benötigen. Möglicherweise stoßen Sie auch auf einen Pandas-Fehler, wenden sich an die ATOM GitHub-Entwickler, um die beste Lösung zu finden, oder überprüfen deren Probleme.
Kryo-Elektronenmikroskopie (KryoEM) ist eine leistungsstarke Bildgebungstechnik, die in der Strukturbiologie verwendet wird, um die Strukturen biologischer Makromoleküle wie Proteine, Nukleinsäuren und große Molekülkomplexe mit nahezu atomarer oder sogar atomarer Auflösung sichtbar zu machen. Es hat das Gebiet der Strukturbiologie revolutioniert, indem es detaillierte dreidimensionale Strukturen von Biomolekülen liefert, die für das Verständnis ihrer Funktionen von entscheidender Bedeutung sind.
AWS verfügt über viele öffentliche Daten, die Sie in Ihre Tests integrieren oder für Ihre eigene Forschung verwenden können. Sie können auf diese Datensätze im Registry of Open Data auf AWS zugreifen. Dort können Sie auf einen der Datensätze klicken, um den S3-Pfad zu den Daten sowie Veröffentlichungen, in denen diese Daten verwendet wurden, und Tutorials (sofern verfügbar) anzuzeigen. Zur Demonstration können wir auf den Gnomad-Datensatz klicken, dann den S3-Pfad abrufen und die Dateien in der Befehlszeile anzeigen, indem wir https://registry.opendata.aws/broad-gnomad/
einfügen.