Ada banyak cara untuk menjalankan alur kerja di AWS. Di sini kami mencantumkan beberapa kemungkinan yang masing-masing dapat digunakan untuk tujuan penelitian yang berbeda. Saat Anda menelusuri berbagai tutorial di bawah ini, pikirkan tentang bagaimana Anda dapat menjalankan alur kerja tersebut dengan lebih efisien menggunakan salah satu metode lain yang tercantum di sini. Jika Anda belum familier dengan istilah atau konsep apa pun di sini, harap tinjau halaman AWS Jumpstart.
screen
atau, sebagai skrip startup yang dilampirkan sebagai metadata. Lihat tutorial GWAS di bawah untuk informasi selengkapnya tentang cara menjalankan pipeline menggunakan EC2.Untuk sebagian besar tutorial ini, Anda memerlukan Kunci Akses Jangka Pendek untuk membuat dan menggunakan sumber daya, terutama setiap kali tutorial memerlukan "ID kunci akses" dan "kunci rahasia". Gunakan panduan ini untuk penjelasan tentang cara mendapatkan dan menggunakan Kunci Akses Jangka Pendek. Jika Anda adalah peneliti yang berafiliasi dengan NIH, dengan kata lain, Anda tidak bekerja di NIH namun memiliki akun Cloud Lab, Anda tidak akan memiliki akses ke kunci. Jika ada tutorial yang tidak dapat Anda selesaikan, hubungi kami untuk mendapatkan bantuan di [email protected]
Perlu diketahui juga, harga mesin GPU lebih mahal daripada kebanyakan mesin CPU, jadi pastikan untuk mematikan mesin ini setelah digunakan, atau terapkan konfigurasi siklus hidup EC2. Anda juga mungkin menemukan kuota layanan untuk melindungi Anda dari penggunaan jenis mesin mahal yang tidak disengaja. Jika hal itu terjadi, dan Anda masih ingin menggunakan jenis instans tertentu, ikuti petunjuk berikut.
Pembelajaran mesin adalah subbidang kecerdasan buatan yang berfokus pada pengembangan algoritme dan model yang memungkinkan komputer belajar dan membuat prediksi atau keputusan berdasarkan data, tanpa diprogram secara eksplisit. Algoritme kecerdasan buatan dan pembelajaran mesin diterapkan pada berbagai pertanyaan penelitian biomedis, mulai dari klasifikasi gambar hingga pemanggilan varian genom. AWS memiliki daftar panjang tutorial AI/ML yang tersedia dan kami telah menyusun daftarnya di sini. Perkembangan terkini berfokus pada AI generatif termasuk kasus penggunaan seperti mengekstraksi informasi dari teks, mengubah ucapan menjadi teks, dan menghasilkan gambar dari teks. Sagemaker Studio memungkinkan pengguna dengan cepat membuat, menguji, dan melatih model AI generatif dan memiliki semua model siap pakai yang terdapat dalam JumpStart. Model-model ini berkisar dari model dasar, model yang dapat disesuaikan, dan solusi khusus tugas.
Informatika klinis, juga dikenal sebagai informatika kesehatan atau informatika medis, adalah bidang interdisipliner yang menerapkan ilmu data pada data layanan kesehatan untuk meningkatkan perawatan pasien, meningkatkan proses klinis, dan memfasilitasi penelitian medis. Hal ini sering kali melibatkan pengintegrasian beragam jenis data termasuk catatan kesehatan elektronik, data demografi, atau lingkungan. AWS menawarkan dua lokakarya sesuai permintaan yang memandu Anda melalui analisis data AWS HealthLake untuk Kesehatan Populasi. Lokakarya pertama ini menunjukkan kepada Anda cara menyerap data ke HealthLake, mengkueri data tersebut menggunakan Athena, memvisualisasikan data ini menggunakan QuickSight, lalu menggabungkan data FHIR dengan data lingkungan, dan memvisualisasikan kumpulan data gabungan. Lokakarya kedua juga memasukkan data ke dalam HealthLake, kemudian memvisualisasikan data perangkat medis, menggunakan AI untuk merangkum catatan klinis, lalu menyalin file audio klinis dan merangkumnya.
Data sekuens genetik Generasi Berikutnya disimpan di NCBI Sequence Read Archive (SRA). Anda dapat mengakses data ini menggunakan SRA Toolkit. Kami memandu Anda melalui hal ini menggunakan buku catatan ini, yang juga memandu Anda tentang cara menyiapkan dan mencari tabel Athena untuk menghasilkan daftar aksesi. Anda juga dapat membaca panduan ini untuk informasi selengkapnya tentang tabel kumpulan data yang tersedia. Contoh buku catatan tambahan dapat ditemukan di repo NCBI ini. Secara khusus, kami merekomendasikan buku catatan ini (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb), yang menjelaskan lebih detail tentang penggunaan Athena untuk mengakses hasil Analisis Taksonomi SRA Alat, yang sering kali berbeda dengan nama spesies yang dimasukkan pengguna karena kontaminasi, kesalahan, atau karena sampel bersifat metagenomik.
Studi asosiasi genome-wide (GWAS) adalah investigasi skala besar yang menganalisis genom banyak individu untuk mengidentifikasi varian genetik umum yang terkait dengan sifat, penyakit, atau fenotipe lainnya.
Analisis pencitraan medis memerlukan analisis file gambar berukuran besar dan seringkali memerlukan penyimpanan elastis dan komputasi yang dipercepat.
Analisis RNA-seq adalah metode pengurutan throughput tinggi yang memungkinkan pengukuran dan karakterisasi tingkat ekspresi gen dan dinamika transkriptome. Alur kerja biasanya dijalankan menggunakan pengelola alur kerja, dan hasil akhirnya sering kali dapat divisualisasikan dalam buku catatan.
Urutan RNA sel tunggal (scRNA-seq) adalah teknik yang memungkinkan analisis ekspresi gen pada tingkat sel individu, memberikan wawasan tentang heterogenitas seluler, mengidentifikasi jenis sel langka, dan mengungkap dinamika seluler dan keadaan fungsional dalam sistem biologis yang kompleks.
NCBI BLAST (Basic Local Alignment Search Tool) adalah program bioinformatika yang banyak digunakan yang disediakan oleh Pusat Informasi Bioteknologi Nasional (NCBI) yang membandingkan urutan nukleotida atau protein dengan database besar untuk mengidentifikasi urutan serupa dan menyimpulkan hubungan evolusi, anotasi fungsional, dan struktur. informasi. Tim NCBI telah menulis versi BLAST untuk cloud yang disebut ElasticBLAST, dan Anda dapat membaca semuanya di sini. Pada dasarnya, ElasticBLAST membantu Anda mengirimkan tugas BLAST ke AWS Batch dan menulis hasilnya kembali ke S3. Silakan bereksperimen dengan contoh tutorial di Cloud Shell, atau coba versi notebook kami.
Anda dapat menjalankan beberapa algoritma pelipatan protein termasuk Alpha Fold di AWS. Karena basis datanya sangat besar, pengaturannya biasanya cukup sulit, namun AWS telah menciptakan tumpukan StackFormation yang secara otomatis memutar semua sumber daya yang diperlukan untuk menjalankan Alpha Fold dan algoritma pelipatan protein lainnya. Anda dapat membaca tentang sumber daya AWS di sini, dan melihat halaman GitHub di sini. Agar ini berfungsi, Anda perlu mengubah grup keamanan Anda dengan mengikuti petunjuk berikut. Anda juga mungkin harus memberikan izin tambahan ke Peran yang digunakan CloudFormation. Jika Anda mengalami kebuntuan, hubungi [email protected]. Anda juga dapat menjalankan ESMFold menggunakan tutorial ini.
Analisis sekuens DNA yang dibaca panjang melibatkan analisis pembacaan sekuensing yang biasanya panjangnya lebih dari 10 ribu pasangan basa (bp), dibandingkan dengan sekuensing baca pendek yang panjangnya membaca sekitar 150 bp. Oxford Nanopore memiliki penawaran tutorial notebook yang cukup lengkap untuk menangani data yang telah lama dibaca untuk melakukan berbagai hal termasuk pemanggilan varian, RNAseq, analisis Sars-Cov-2 dan masih banyak lagi. Akses buku catatan di sini. Notebook ini mengharapkan Anda berjalan secara lokal dan mengakses server notebook epi2me. Untuk menjalankannya di Cloud Lab, lewati sel pertama yang terhubung ke server, lalu bagian notebook lainnya akan berjalan dengan benar, dengan beberapa penyesuaian. Jika Anda hanya ingin mencoba buku catatan, jangan mulai dengan ini. Jika Anda tertarik dengan analisis urutan baca panjang, beberapa pemecahan masalah mungkin diperlukan untuk menyesuaikannya dengan lingkungan Cloud Lab. Anda bahkan mungkin perlu menulis ulang di buku catatan baru dengan mengadaptasi perintahnya. Jangan ragu untuk menghubungi tim dukungan kami untuk mendapatkan bantuan.
Konsorsium Accelerating Therapeutics for Opportunities in Medicine (ATOM) membuat serangkaian buku catatan Jupyter yang memandu Anda melalui pendekatan ATOM terhadap Penemuan Obat.
Notebook ini dibuat untuk dijalankan di Google Colab, jadi jika Anda menjalankannya di AWS, Anda perlu melakukan beberapa modifikasi. Pertama, kami menyarankan Anda menggunakan Notebook Sagemaker Studio daripada notebook yang Dikelola Pengguna hanya karena Tensorflow dan dependensi lainnya akan diinstal di dalamnya. Pastikan untuk memasang GPU ke instance Anda (T4 boleh saja). Selain itu, Anda perlu mengomentari %tensorflow_version 2.x
karena itu adalah perintah khusus Colab. Anda juga perlu pip install
beberapa paket sesuai kebutuhan. Jika Anda mendapatkan kesalahan dengan deepchem
, coba jalankan pip install --pre deepchem[tensorflow]
dan/atau pip install --pre deepchem[torch]
. Selain itu, beberapa notebook memerlukan kernel Tensorflow, sementara yang lain memerlukan Pytorch. Anda mungkin juga mengalami kesalahan Pandas, hubungi pengembang ATOM GitHub untuk mendapatkan solusi terbaik, atau tinjau masalah mereka.
Mikroskop Krio-Elektron (cryoEM), adalah teknik pencitraan canggih yang digunakan dalam biologi struktural untuk memvisualisasikan struktur makromolekul biologis, seperti protein, asam nukleat, dan kompleks molekul besar, pada resolusi mendekati atom atau bahkan atom. Ini telah merevolusi bidang biologi struktural dengan menyediakan struktur biomolekul tiga dimensi secara rinci, yang sangat penting untuk memahami fungsinya.
AWS memiliki banyak data publik yang dapat Anda integrasikan ke dalam pengujian atau digunakan dalam penelitian Anda sendiri. Anda dapat mengakses kumpulan data ini di Registri Data Terbuka di AWS. Di sana Anda dapat mengklik salah satu kumpulan data untuk melihat jalur S3 ke data tersebut, serta publikasi yang telah menggunakan data tersebut dan tutorial jika tersedia. Untuk mendemonstrasikannya, kita dapat mengklik kumpulan data gnomad, lalu mendapatkan jalur S3 dan melihat file di baris perintah dengan menempelkan https://registry.opendata.aws/broad-gnomad/
.