GCP でワークフローを実行する方法はたくさんあります。ここでは、さまざまな研究目的に適したいくつかの可能性を列挙します。以下のさまざまなチュートリアルを読みながら、ここにリストされている他の方法のいずれかを使用して、そのワークフローをより効率的に実行できる方法を考えてください。
screen
を使用して、またはメタデータとして添付された起動スクリプトとしてコマンドを実行することです。managed notebooks
とuser managed notebooks
には違いがあることに注意してください。 managed notebooks
より多くの機能があり、スケジュールすることもできますが、conda 環境/インストールの制御は少なくなります。機械学習は人工知能のサブ分野であり、明示的にプログラムすることなく、コンピューターがデータから学習し、データに基づいて予測や決定を行えるようにするアルゴリズムとモデルの開発に焦点を当てています。 GCP での機械学習は通常、VertexAI 内で行われます。 GCP の機械学習について詳しくは、この Google クラッシュ コースをご覧ください。実践的な例として、サンフランシスコ州立大学が開発したこのモジュール、または NIGMS サンドボックス プロジェクト用に開発されたアーカサ大学のこのモジュールを試してください。
ジェネレーティブ AI (Gen AI) の時代が到来した今、Google は Vertex AI スイート内で多数の Gen AI 製品をリリースしました。生成 AI モデルができることの例としては、テキストから必要な情報を抽出する、音声をテキストに変換する、説明から画像を生成する、またはその逆などが挙げられます。 Vertex AI の Vertex AI Studio コンソールを使用すると、ユーザーはクラウド上で安全かつセキュアな設定で生成 AI モデルを迅速に作成、テスト、トレーニングできます。このチュートリアルの概要を参照してください。スタジオには、すぐに使用できるモデルもあり、すべてモデル ガーデン内に含まれています。これらのモデルは、基礎モデルから微調整可能なモデル、タスク固有のソリューションまで多岐にわたります。
医用画像分析は、診断、治療計画、研究目的で医用画像から意味のある情報を抽出するための計算アルゴリズムと技術の応用です。医用画像分析には、大規模な画像ファイルが必要であり、多くの場合、柔軟なストレージと高速コンピューティングが必要です。
次世代の遺伝子配列データは、NCBI Sequence Read Archive (SRA) に保管されています。 SRA ツールキットを使用してこれらのデータにアクセスできます。 BigQuery を使用してアクセッションのリストを生成する方法など、このノートブックを使用してこれについて説明します。 BigQuery を使用して、この設定ガイドとこのクエリ ガイドを使用してダウンロードするアクセシオンのリストを作成することもできます。追加のノートブックの例は、この NCBI リポジトリにあります。特に、このノートブック (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb) をお勧めします。このノートブックでは、BigQuery を使用して SRA 分類分析の結果にアクセスする方法について詳しく説明しています。ツール。汚染、エラー、または本質的にメタゲノムのサンプルにより、ユーザーが入力した種名と異なることがよくあります。さらに、このノートブックでは BigQuery の結果の解析について詳しく説明しており、SRA からサンプルを検索する方法について良いアイデアが得られるかもしれません。 SRA メタデータと分類分析は別の BigQuery テーブルにあります。SQL を使用してこれら 2 つのテーブルを結合する方法については、この Powerpoint またはこちらのチュートリアルで学習できます。最後に、NCBI は、NCBI データセットを使用してさまざまな BigQuery アプリケーションを説明するこのワークショップをリリースしました。
ゲノム変異コーリングは、個人の遺伝子構成の違いを理解するために、DNA 配列データから遺伝的変異を特定して特徴付けるプロセスです。
ゲノム バリアント呼び出しワークフローの出力は、バリアント コール フォーマット (VCF) のファイルです。これらは多くの場合、Big Query などのデータベース クエリ ツールを使用して検索できる、大きな構造化データ ファイルです。
ゲノムワイド関連研究 (GWAS) は、多くの個人のゲノムを分析して、形質、疾患、またはその他の表現型に関連する一般的な遺伝的変異を特定する大規模な研究です。
プロテオミクスは、細胞、組織、または生物内のタンパク質のセット全体を研究するもので、その構造、機能、相互作用を理解して生物学的プロセスと疾患についての洞察を明らかにすることを目的としています。ほとんどの一次プロテオーム解析は独自のソフトウェア プラットフォームで行われますが、多くの二次解析は Jupyter または R ノートブックで行われます。ここではいくつかの例を示します。
Custom container
を選択し、 Docker container image
にwest1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
を貼り付けます。RNA-seq 解析は、遺伝子発現レベルとトランスクリプトームダイナミクスの測定と特性評価を可能にするハイスループット シーケンス手法です。ワークフローは通常、ワークフロー マネージャーを使用して実行され、最終結果は多くの場合ノートブックで視覚化できます。
トランスクリプトーム アセンブリは、断片化された配列データから細胞または組織内の RNA 転写物の完全なセットを再構成するプロセスであり、遺伝子発現と機能分析に対する貴重な洞察を提供します。
シングルセル RNA シーケンス (scRNA-seq) は、個々の細胞レベルでの遺伝子発現の分析を可能にし、細胞の不均一性についての洞察を提供し、希少な細胞タイプを同定し、複雑な生物学的システム内の細胞の動態と機能状態を明らかにする技術です。
ATAC-seq は、アクセス可能で遺伝子制御に関与する可能性がある DNA 領域を特定することにより、科学者が DNA が細胞内でどのようにパッケージングされるかを理解できるようにする技術です。 -このモジュールでは、Google Cloud で ATACseq およびシングルセル ATACseq ワークフローを実行する方法について説明します。このモジュールは、NIGMS サンドボックス プロジェクトのためにネブラスカ大学医療センターによって開発されました。
DNA メチル化は、最も豊富でよく研究されているエピジェネティック修飾の 1 つとして、正常な細胞の発生に重要な役割を果たし、転写、ゲノムの安定性、細胞内の DNA パッケージングにさまざまな影響を与えます。メチルシーケンスは、ゲノムのメチル化領域を特定する技術です。
メタゲノミクスは、環境サンプルから直接収集された遺伝物質の研究であり、実験室での培養を必要とせずに、微生物群集、その多様性、機能的可能性の探求を可能にします。 -このモジュールでは、コマンド ラインと Nextflow を使用してメタゲノム解析を実行する手順を説明します。このモジュールは、NIGMS サンドボックス プロジェクトの一環としてサウスダコタ大学によって開発されました。
マルチオーム解析には、モダリティ (ゲノム、トランスクリプトーム、表現型など) 全体でデータを統合して、相加的な洞察を生成することが含まれます。
バイオマーカーの発見は、生物学的プロセス、疾患、または治療反応の指標として機能し、診断、予後、個別化医療に役立つ特定の分子または特性を特定するプロセスです。バイオマーカーの発見は通常、ゲノミクス、プロテオミクス、メタボロミクス、臨床データなどのさまざまな種類のデータの包括的な分析を通じて行われ、ハイスループット スクリーニング、バイオインフォマティクス、統計分析などの高度な技術を使用して、健康な人と健康な人を区別するパターンや特徴を特定します。病気の個人、または特定の治療法に反応する人および反応しない人。
NCBI BLAST (Basic Local Alignment Search Tool) は、国立バイオテクノロジー情報センター (NCBI) が提供する広く使用されているバイオインフォマティクス プログラムであり、ヌクレオチドまたはタンパク質の配列を大規模なデータベースと比較して、類似した配列を特定し、進化的関係、機能的注釈、および構造的配列を推測します。情報。
ロングリード DNA シーケンス解析には、リードの長さが約 150 bp であるショートリード シーケンシングと比較して、通常 10,000 塩基対 (bp) を超える長さのシーケンシング リードの解析が含まれます。 Oxford Nanopore には、バリアント呼び出し、RNAseq、Sars-Cov-2 分析などを含むさまざまな作業を行うために長時間読み取られたデータを処理するためのノートブック チュートリアルがかなり完全に提供されています。ここでノートブックのリストと説明を見つけるか、GitHub リポジトリのクローンを作成できます。これらのノートブックは、ローカルで実行し、epi2me ノートブック サーバーにアクセスすることを想定していることに注意してください。これらを Cloud Lab で実行するには、サーバーに接続する最初のセルをスキップすると、ノートブックの残りの部分がいくつかの調整で正しく実行されるはずです。
Accelerated Therapeutics for Opportunities in Medicine (ATOM) コンソーシアムは、創薬に対する ATOM アプローチを説明する一連の Jupyter ノートブックを作成しました。
これらのノートブックは Google Colab で実行するように作成されているため、Google Cloud で実行する場合は、いくつかの変更を加える必要があります。まず、Google 管理ノートブックにはすでに Tensorflow とその他の依存関係がインストールされているため、ユーザー管理ノートブックではなく Google 管理ノートブックを使用することをお勧めします。必ず GPU をインスタンスに接続してください (T4 で問題ありません)。また、 %tensorflow_version 2.x
Colab 固有のコマンドであるため、コメント アウトする必要があります。必要に応じて、いくつかのパッケージをpip install
必要もあります。 deepchem
でエラーが発生した場合は、 pip install --pre deepchem[tensorflow]
および/またはpip install --pre deepchem[torch]
を実行してみてください。また、一部のノートブックでは Tensorflow カーネルが必要ですが、他のノートブックでは Pytorch が必要です。また、Pandas エラーが発生する場合もあります。この問題に対する最適な解決策については、ATOM GitHub 開発者にお問い合わせください。
Google Batch と直接対話してコマンドを送信することもできますが、より一般的には Nextflow や Cromwell などのオーケストレーション エンジンを通じて Google Batch と対話することもできます。Nextflow を使用して Google Batch を利用するチュートリアルがあり、nf-core Mmethylseq パイプラインも実行します。 NIGMS サンドボックスのいくつかには、トランスクリプトーム アセンブリ、マルチオミクス、メチル配列、メタゲノミクスが含まれます。
Life Science API は GCP で廃止され、2025 年 7 月 8 日までにプラットフォームで利用できなくなります。代わりに Google Batch を使用することをお勧めします。現時点では、ライフ サイエンス API と直接対話してコマンドを送信することもできますが、より一般的には、Snakemake などのオーケストレーション エンジンを介して対話することもできます。現時点では、このワークフロー マネージャーはライフ サイエンス API のみをサポートしています。
Google には、テストに使用できる公開データセットが多数用意されています。これらはここで表示でき、BigQuery 経由で、またはクラウド バケットから直接アクセスできます。たとえば、フェーズ 3 の 1k ゲノムを表示するには、コマンド ラインでgsutil ls gs://genomics-public-data/1000-genomes-phase-3
入力します。