Ada banyak cara untuk menjalankan alur kerja di GCP. Di sini kami mencantumkan beberapa kemungkinan yang masing-masing dapat digunakan untuk tujuan penelitian yang berbeda. Saat Anda menelusuri berbagai tutorial di bawah ini, pikirkan tentang bagaimana Anda dapat menjalankan alur kerja tersebut dengan lebih efisien menggunakan salah satu metode lain yang tercantum di sini.
screen
atau, sebagai skrip startup yang dilampirkan sebagai metadata.managed notebooks
dan user managed notebooks
. managed notebooks
memiliki lebih banyak fitur dan dapat dijadwalkan, namun memberi Anda lebih sedikit kontrol untuk lingkungan conda/penginstalan.Pembelajaran mesin adalah subbidang kecerdasan buatan yang berfokus pada pengembangan algoritme dan model yang memungkinkan komputer belajar dan membuat prediksi atau keputusan berdasarkan data, tanpa diprogram secara eksplisit. Pembelajaran mesin di GCP umumnya terjadi dalam VertexAI. Anda dapat mempelajari lebih lanjut tentang machine learning di GCP di Kursus Singkat Google ini. Untuk contoh langsung, cobalah modul yang dikembangkan oleh San Francisco State University atau modul dari University of Arkasas yang dikembangkan untuk Proyek Sandbox NIGMS.
Kini setelah era AI Generatif (Gen AI) telah tiba, Google telah merilis sejumlah penawaran Gen AI dalam rangkaian Vertex AI. Beberapa contoh kemampuan model AI generatif adalah mengekstraksi informasi yang diinginkan dari teks, mengubah ucapan menjadi teks, menghasilkan gambar dari deskripsi dan sebaliknya, dan banyak lagi. Konsol Vertex AI Studio dari Vertex AI memungkinkan pengguna membuat, menguji, dan melatih model AI generatif dengan cepat di cloud dalam pengaturan yang aman dan terjamin, lihat ikhtisar kami dalam tutorial ini. Studio ini juga memiliki model siap pakai yang semuanya ada di Model Garden. Model-model ini berkisar dari model dasar, model yang dapat disesuaikan, dan solusi khusus tugas.
Analisis citra medis adalah penerapan algoritma dan teknik komputasi untuk mengekstrak informasi bermakna dari citra medis untuk diagnosis, perencanaan perawatan, dan tujuan penelitian. Analisis citra medis memerlukan file gambar yang besar dan seringkali penyimpanan elastis serta komputasi yang dipercepat.
Data sekuens genetik Generasi Berikutnya disimpan di NCBI Sequence Read Archive (SRA). Anda dapat mengakses data ini menggunakan SRA Toolkit. Kami memandu Anda menggunakan notebook ini, termasuk cara menggunakan BigQuery untuk membuat daftar Aksesi Anda. Anda juga dapat menggunakan BigQuery untuk membuat daftar aksesi untuk diunduh menggunakan panduan penyiapan dan panduan kueri ini. Contoh buku catatan tambahan dapat ditemukan di repo NCBI ini. Secara khusus, kami merekomendasikan notebook ini (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb), yang membahas lebih detail tentang penggunaan BigQuery untuk mengakses hasil Analisis Taksonomi SRA Alat, yang sering kali berbeda dengan nama spesies yang dimasukkan pengguna karena kontaminasi, kesalahan, atau karena sampel bersifat metagenomik. Lebih lanjut, buku catatan ini mendalami penguraian hasil BigQuery dan mungkin memberi Anda beberapa ide bagus tentang cara menelusuri sampel dari SRA. Analisis metadata dan taksonomi SRA berada dalam tabel BigQuery terpisah, Anda dapat mempelajari cara menggabungkan kedua tabel tersebut menggunakan SQL dari Powerpoint ini atau dari tutorial kami di sini. Terakhir, NCBI merilis lokakarya yang membahas berbagai macam aplikasi BigQuery dengan kumpulan data NCBI.
Pemanggilan varian genom adalah proses mengidentifikasi dan mengkarakterisasi variasi genetik dari data pengurutan DNA untuk memahami perbedaan susunan genetik individu.
Output alur kerja pemanggilan varian genom adalah file dalam format panggilan varian (VCF). Ini sering kali berupa file data terstruktur dan besar yang dapat dicari menggunakan alat kueri database seperti Big Query.
Studi asosiasi genome-wide (GWAS) adalah investigasi skala besar yang menganalisis genom banyak individu untuk mengidentifikasi varian genetik umum yang terkait dengan sifat, penyakit, atau fenotipe lainnya.
Proteomik adalah studi tentang keseluruhan rangkaian protein dalam sel, jaringan, atau organisme, yang bertujuan untuk memahami struktur, fungsi, dan interaksinya guna mengungkap wawasan tentang proses biologis dan penyakit. Meskipun sebagian besar analisis proteomik primer terjadi pada platform perangkat lunak berpemilik, banyak analisis sekunder terjadi pada notebook Jupyter atau R, kami memberikan beberapa contoh di sini:
Custom container
, lalu untuk Docker container image
tempelkan yang berikut ini: west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
.Analisis RNA-seq adalah metode pengurutan throughput tinggi yang memungkinkan pengukuran dan karakterisasi tingkat ekspresi gen dan dinamika transkriptome. Alur kerja biasanya dijalankan menggunakan pengelola alur kerja, dan hasil akhirnya sering kali dapat divisualisasikan dalam buku catatan.
Perakitan transkriptome adalah proses merekonstruksi rangkaian lengkap transkrip RNA dalam sel atau jaringan dari data pengurutan terfragmentasi, memberikan wawasan berharga mengenai ekspresi gen dan analisis fungsional.
Urutan RNA sel tunggal (scRNA-seq) adalah teknik yang memungkinkan analisis ekspresi gen pada tingkat sel individu, memberikan wawasan tentang heterogenitas seluler, mengidentifikasi jenis sel langka, dan mengungkap dinamika seluler dan keadaan fungsional dalam sistem biologis yang kompleks.
ATAC-seq adalah teknik yang memungkinkan para ilmuwan memahami bagaimana DNA dikemas dalam sel dengan mengidentifikasi wilayah DNA yang dapat diakses dan berpotensi terlibat dalam regulasi gen. -Modul ini memandu Anda tentang cara bekerja melalui alur kerja ATACseq dan ATACseq sel tunggal di Google Cloud. Modul ini dikembangkan oleh Pusat Medis Universitas Nebraska untuk Proyek Sandbox NIGMS.
Sebagai salah satu modifikasi epigenetik yang paling melimpah dan dipelajari dengan baik, metilasi DNA memainkan peran penting dalam perkembangan sel normal dan memiliki berbagai efek pada transkripsi, stabilitas genom, dan pengemasan DNA di dalam sel. Methylseq adalah teknik untuk mengidentifikasi daerah genom yang termetilasi.
Metagenomics adalah studi tentang materi genetik yang dikumpulkan langsung dari sampel lingkungan, memungkinkan eksplorasi komunitas mikroba, keanekaragamannya, dan potensi fungsionalnya, tanpa memerlukan kultur laboratorium. -Modul ini memandu Anda dalam melakukan analisis metagenomik menggunakan baris perintah dan Nextflow. Modul ini dikembangkan oleh University of South Dakota sebagai bagian dari Proyek Sandbox NIGMS.
Analisis multiomik melibatkan pengintegrasian data lintas modalitas (misalnya genomik, transkriptomik, fenotipik) untuk menghasilkan wawasan tambahan.
Penemuan biomarker adalah proses mengidentifikasi molekul atau karakteristik tertentu yang dapat berfungsi sebagai indikator proses biologis, penyakit, atau respons pengobatan, membantu diagnosis, prognosis, dan pengobatan yang dipersonalisasi. Penemuan biomarker biasanya dilakukan melalui analisis komprehensif terhadap berbagai jenis data, seperti genomik, proteomik, metabolomik, dan data klinis, menggunakan teknik canggih termasuk skrining throughput tinggi, bioinformatika, dan analisis statistik untuk mengidentifikasi pola atau tanda yang membedakan antara sehat dan sehat. individu yang sakit, atau responden dan non-responden terhadap pengobatan tertentu.
NCBI BLAST (Basic Local Alignment Search Tool) adalah program bioinformatika yang banyak digunakan yang disediakan oleh Pusat Informasi Bioteknologi Nasional (NCBI) yang membandingkan urutan nukleotida atau protein dengan database besar untuk mengidentifikasi urutan serupa dan menyimpulkan hubungan evolusi, anotasi fungsional, dan struktur. informasi.
Analisis sekuens DNA yang dibaca panjang melibatkan analisis pembacaan sekuensing yang biasanya panjangnya lebih dari 10 ribu pasangan basa (bp), dibandingkan dengan sekuensing baca pendek yang panjangnya membaca sekitar 150 bp. Oxford Nanopore memiliki penawaran tutorial notebook yang cukup lengkap untuk menangani data yang telah lama dibaca untuk melakukan berbagai hal termasuk pemanggilan varian, RNAseq, analisis Sars-Cov-2 dan masih banyak lagi. Anda dapat menemukan daftar dan deskripsi buku catatan di sini, atau mengkloning repo GitHub. Perhatikan bahwa notebook ini mengharapkan Anda berjalan secara lokal dan mengakses server notebook epi2me. Untuk menjalankannya di Cloud Lab, lewati sel pertama yang terhubung ke server, lalu bagian notebook lainnya akan berjalan dengan benar, dengan beberapa penyesuaian.
Konsorsium Accelerating Therapeutics for Opportunities in Medicine (ATOM) membuat serangkaian buku catatan Jupyter yang memandu Anda melalui pendekatan ATOM terhadap Penemuan Obat.
Notebook ini dibuat untuk dijalankan di Google Colab, jadi jika Anda menjalankannya di Google Cloud, Anda perlu melakukan beberapa modifikasi. Pertama, kami menyarankan Anda menggunakan Notebook yang Dikelola Google daripada notebook yang Dikelola Pengguna hanya karena notebook yang Dikelola Google sudah memiliki Tensorflow dan dependensi lainnya yang diinstal. Pastikan untuk memasang GPU ke instance Anda (T4 boleh saja). Selain itu, Anda perlu mengomentari %tensorflow_version 2.x
karena itu adalah perintah khusus Colab. Anda juga perlu pip install
beberapa paket sesuai kebutuhan. Jika Anda mendapatkan kesalahan dengan deepchem
, coba jalankan pip install --pre deepchem[tensorflow]
dan/atau pip install --pre deepchem[torch]
. Selain itu, beberapa notebook memerlukan kernel Tensorflow, sementara yang lain memerlukan Pytorch. Anda mungkin juga mengalami kesalahan Pandas, hubungi pengembang ATOM GitHub untuk mendapatkan solusi terbaik untuk masalah ini.
Anda dapat berinteraksi dengan Google Batch secara langsung untuk mengirimkan perintah, atau lebih umum Anda dapat berinteraksi dengannya melalui mesin orkestrasi seperti Nextflow dan Cromwell, dll. Kami memiliki tutorial yang memanfaatkan Google Batch menggunakan Nextflow di mana kami juga menjalankan pipeline nf-core Methylseq seperti beberapa dari NIGMS Sandbox termasuk perakitan transkriptome, multiomik, metilseq, dan metagenomik.
Life Science API tidak lagi disusutkan di GCP dan tidak akan tersedia lagi pada tanggal 8 Juli 2025 di platform ini. Sebaiknya gunakan Google Batch saja. Untuk saat ini Anda masih dapat berinteraksi dengan Life Sciences API secara langsung untuk mengirimkan perintah, atau lebih umum Anda dapat berinteraksi dengannya melalui mesin orkestrasi seperti Snakemake, untuk saat ini pengelola alur kerja ini hanya mendukung Life Sciences API.
Google memiliki banyak kumpulan data publik yang dapat Anda gunakan untuk pengujian. Ini dapat dilihat di sini dan diakses melalui BigQuery atau langsung dari cloud bucket. Misalnya, untuk melihat Genom 1k Fase 3 di baris perintah, ketik gsutil ls gs://genomics-public-data/1000-genomes-phase-3
.