AWS でワークフローを実行する方法はたくさんあります。ここでは、さまざまな研究目的に適したいくつかの可能性を列挙します。以下のさまざまなチュートリアルを読みながら、ここにリストされている他の方法のいずれかを使用して、そのワークフローをより効率的に実行できる方法を考えてください。ここでの用語や概念に慣れていない場合は、AWS Jumpstart ページを確認してください。
screen
を使用して、またはメタデータとして添付された起動スクリプトとしてコマンドを実行することです。 EC2 を使用してパイプラインを実行する方法の詳細については、以下の GWAS チュートリアルを参照してください。これらのチュートリアルの多くでは、特にチュートリアルで「アクセス キー ID」と「秘密キー」が必要な場合には、リソースを作成して使用するために短期アクセス キーが必要になります。短期アクセス キーの取得および使用方法については、このガイドを使用してください。あなたが NIH に所属する研究者、つまり NIH に勤務していないが Cloud Lab アカウントを持っている場合、キーにアクセスすることはできません。完了できないチュートリアルがある場合は、[email protected] までご連絡ください。
また、GPU マシンはほとんどの CPU マシンよりもコストがかかるため、使用後は必ずこれらのマシンをシャットダウンするか、EC2 ライフサイクル構成を適用するようにしてください。また、高価なマシンタイプを誤って使用しないようにするためのサービスクォータが発生する場合もあります。そのような場合でも、特定のインスタンス タイプを使用したい場合は、次の手順に従ってください。
機械学習は人工知能のサブ分野であり、明示的にプログラムすることなく、コンピューターがデータから学習し、データに基づいて予測や決定を行えるようにするアルゴリズムとモデルの開発に焦点を当てています。人工知能と機械学習のアルゴリズムは、画像分類からゲノム変異の呼び出しに至るまで、さまざまな生物医学研究の課題に適用されています。 AWS には利用可能な AI/ML チュートリアルの長いリストがあり、ここにリストをまとめました。最近の開発は、テキストからの情報の抽出、音声のテキストへの変換、テキストからの画像の生成などのユースケースを含む生成 AI に焦点を当てています。 Sagemaker Studio を使用すると、ユーザーは生成 AI モデルを迅速に作成、テスト、トレーニングすることができ、すべて JumpStart に含まれているすぐに使用できるモデルが用意されています。これらのモデルは、基礎モデルから微調整可能なモデル、タスク固有のソリューションまで多岐にわたります。
医療情報学または医療情報学としても知られる臨床情報学は、データサイエンスを医療データに適用して患者ケアを改善し、臨床プロセスを強化し、医学研究を促進する学際的な分野です。多くの場合、電子医療記録、人口統計、環境データなど、さまざまな種類のデータを統合する必要があります。 AWS では、人口健康データ分析のための AWS HealthLake を説明する 2 つのオンデマンド ワークショップを提供しています。この最初のワークショップでは、HealthLake にデータを取り込み、Athena を使用してそれらのデータをクエリし、QuickSight を使用してこれらのデータを視覚化し、FHIR データを環境データと結合して、結合されたデータセットを視覚化する方法を説明します。 2 番目のワークショップでも、データを HealthLake に取り込み、医療機器データを視覚化し、AI を使用して臨床メモを要約し、臨床音声ファイルを文字に起こして要約します。
次世代の遺伝子配列データは、NCBI Sequence Read Archive (SRA) に保管されています。 SRA ツールキットを使用してこれらのデータにアクセスできます。このノートブックを使用してこれについて説明します。また、Athena テーブルを設定および検索してアクセション リストを生成する方法も説明します。利用可能なデータセット テーブルの詳細については、このガイドをお読みください。追加のノートブックの例は、この NCBI リポジトリにあります。特に、このノートブック (https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb) をお勧めします。このノートブックでは、Athena を使用して SRA 分類分析の結果にアクセスする方法について詳しく説明しています。ツール。汚染、エラー、または本質的にメタゲノムのサンプルにより、ユーザーが入力した種名と異なることがよくあります。
ゲノムワイド関連研究 (GWAS) は、多くの個人のゲノムを分析して、形質、疾患、またはその他の表現型に関連する一般的な遺伝的変異を特定する大規模な研究です。
医用画像解析には大規模な画像ファイルの解析が必要であり、多くの場合、エラスティック ストレージと高速コンピューティングが必要です。
RNA-seq 解析は、遺伝子発現レベルとトランスクリプトームダイナミクスの測定と特性評価を可能にするハイスループット シーケンス手法です。ワークフローは通常、ワークフロー マネージャーを使用して実行され、最終結果は多くの場合ノートブックで視覚化できます。
シングルセル RNA シーケンス (scRNA-seq) は、個々の細胞レベルでの遺伝子発現の分析を可能にし、細胞の不均一性についての洞察を提供し、希少な細胞タイプを同定し、複雑な生物学的システム内の細胞の動態と機能状態を明らかにする技術です。
NCBI BLAST (Basic Local Alignment Search Tool) は、国立バイオテクノロジー情報センター (NCBI) が提供する広く使用されているバイオインフォマティクス プログラムであり、ヌクレオチドまたはタンパク質の配列を大規模なデータベースと比較して、類似した配列を特定し、進化的関係、機能的注釈、および構造的配列を推測します。情報。 NCBI チームは、ElasticBLAST と呼ばれるクラウド用の BLAST バージョンを作成しました。その詳細については、ここですべて読むことができます。基本的に、ElasticBLAST は、BLAST ジョブを AWS Batch に送信し、結果を S3 に書き戻すのに役立ちます。 Cloud Shell のサンプル チュートリアルを自由に試してみたり、ノートブック バージョンを試してみたりしてください。
Alpha Fold を含むいくつかのタンパク質フォールディング アルゴリズムを AWS で実行できます。データベースは非常に大きいため、セットアップは通常かなり困難ですが、AWS は、Alpha Fold やその他のタンパク質フォールディング アルゴリズムの実行に必要なすべてのリソースのスピンアップを自動化する StackFormation スタックを作成しました。 AWS リソースについてはこちらで、GitHub ページはこちらでご覧いただけます。これを機能させるには、次の手順に従ってセキュリティ グループを変更する必要があります。また、CloudFormation が使用しているロールに追加の権限を付与する必要がある場合もあります。行き詰まった場合は、[email protected] までご連絡ください。このチュートリアルを使用して ESMFold を実行することもできます。
ロングリード DNA シーケンス解析には、リードの長さが約 150 bp であるショートリード シーケンシングと比較して、通常 10,000 塩基対 (bp) を超える長さのシーケンシング リードの解析が含まれます。 Oxford Nanopore には、バリアント呼び出し、RNAseq、Sars-Cov-2 分析などを含むさまざまな作業を行うために長時間読み取られたデータを処理するためのノートブック チュートリアルがかなり完全に提供されています。ここからノートブックにアクセスします。これらのノートブックは、ローカルで実行し、epi2me ノートブック サーバーにアクセスすることを想定しています。これらを Cloud Lab で実行するには、サーバーに接続する最初のセルをスキップすると、ノートブックの残りの部分がいくつかの調整で正しく実行されるはずです。単にノートブックを試してみたいだけの場合は、ここから始めないでください。ロングリード配列解析に興味がある場合は、これらを Cloud Lab 環境に適応させるためにいくつかのトラブルシューティングが必要になる場合があります。コマンドを調整して、新しいノートブックに書き直す必要がある場合もあります。サポートが必要な場合はお気軽にサポート チームにお問い合わせください。
Accelerated Therapeutics for Opportunities in Medicine (ATOM) コンソーシアムは、創薬に対する ATOM アプローチを説明する一連の Jupyter ノートブックを作成しました。
これらのノートブックは Google Colab で実行するように作成されているため、AWS で実行する場合はいくつかの変更を加える必要があります。まず、Tensorflow やその他の依存関係がインストールされるため、ユーザー管理ノートブックではなく Sagemaker Studio ノートブックを使用することをお勧めします。必ず GPU をインスタンスに接続してください (T4 で問題ありません)。また、 %tensorflow_version 2.x
Colab 固有のコマンドであるため、コメント アウトする必要があります。必要に応じて、いくつかのパッケージをpip install
必要もあります。 deepchem
でエラーが発生した場合は、 pip install --pre deepchem[tensorflow]
および/またはpip install --pre deepchem[torch]
を実行してみてください。また、一部のノートブックでは Tensorflow カーネルが必要ですが、他のノートブックでは Pytorch が必要です。また、Pandas エラーが発生したり、ATOM GitHub 開発者に連絡して最適な解決策を求めたり、問題を確認したりすることもできます。
クライオ電子顕微鏡 (cryoEM) は、タンパク質、核酸、大きな分子複合体などの生体高分子の構造を原子に近い解像度、または原子レベルの解像度で視覚化するために構造生物学で使用される強力なイメージング技術です。生体分子の機能を理解するために重要な、生体分子の詳細な三次元構造を提供することにより、構造生物学の分野に革命をもたらしました。
AWS には、テストに統合したり、独自の研究に使用したりできる公開データが多数あります。これらのデータセットには、AWS のオープンデータのレジストリでアクセスできます。そこでは、データセットのいずれかをクリックして、データへの S3 パスのほか、それらのデータを使用した出版物やチュートリアル (利用可能な場合) を表示できます。デモとして、gnomad データセットをクリックして S3 パスを取得し、コマンドラインでhttps://registry.opendata.aws/broad-gnomad/
貼り付けてファイルを表示します。