このリポジトリは NIH STRIDES イニシアチブに属します。 STRIDES は、クラウドの力を活用して生物医学の発見を加速することを目指しています。詳細については、https://cloud.nih.gov をご覧ください。
NIH クラウド ラボの目標は、クラウドを簡単に利用できるようにすることで、管理タスクに費やす時間を減らし、研究に集中できるようにすることです。
このリポジトリを使用して、リンクされたリソースを調べてチュートリアルを実行することで、Azure の使用方法を学習します。初心者の場合は、ここに戻る前に、Cloud Lab Web サイトのジャンプスタート セクションから始めることをお勧めします。
機械学習は人工知能のサブ分野であり、明示的にプログラムすることなく、コンピューターがデータから学習し、データに基づいて予測や決定を行えるようにするアルゴリズムとモデルの開発に焦点を当てています。人工知能と機械学習のアルゴリズムは、画像分類からゲノム変異の呼び出しに至るまで、さまざまな生物医学研究の課題に適用されています。 Azure は、Azure AI Studio と Azure Machine Learning を通じて AI サービスを提供します。
Azure AI Studio、Azure OpenAI、Azure AI Search などの Azure 製品や、Langchain などの外部ツールに焦点を当てた、Azure 上の Gen AI の詳細については、チュートリアル スイートをご覧ください。これらのノートブックでは、モデルのデプロイ、トレーニング、クエリの方法に加え、検索拡張生成 (RAG) などの手法の実装方法について説明します。 csv や json ファイルなどの構造化データを操作するようにモデルを構成することに興味がある場合は、Azure UI を使用して csv にインデックスを付け、Azure ML 内のノートブックを使用してデータベースにクエリを実行する方法を説明するチュートリアルを作成しました。必要なすべての手順をノートブックから直接実行する別のチュートリアルもあります。
Azure Health Data Services は、Azure で医療データを保存、処理、分析できるようにする一連のサービスです。これらのサービスは、組織が構造化データ、画像データ、デバイス データなどの異種の健康データ ソースと形式を迅速に接続し、それを正規化してクラウドに保存できるように設計されています。 Azure Health Data Services の中核には、データを FHIR (Fast Healthcare Interoperability Resources) 形式に変換して取り込む機能があります。これにより、健康データを HL7v2 や CDA などの従来の形式から、またはデバイス独自の形式の高周波 IoT データから FHIR に変換できます。これにより、Azure Health Data Services に保存されたデータを、Azure Synapse Analytics や Azure Machine Learning (Azure ML) などの Azure エコシステム全体のサービスと簡単に接続できるようになります。
Azure Health Data Services には、構造化データを交換するための複数の医療データ標準のサポートと、相互にシームレスに連携するさまざまなサービスの種類 (FHIR、DICOM、および MedTech) の複数のインスタンスをデプロイする機能が含まれています。ワークスペース内にデプロイされたサービスは、コンプライアンス境界と共通の構成設定も共有します。この製品は、ワークロードのさまざまな要求に合わせて自動的に拡張されるため、インフラストラクチャの管理に費やす時間が減り、健康データから洞察を生成することに多くの時間を費やすことができます。
Azure FHIR サーバーに保存されているヘルスケア データを Synapse Analytics にコピーすると、研究者はクラウド スケールのデータ ウェアハウジングおよび分析ツールを活用して、データから洞察を抽出し、スケーラブルな研究パイプラインを構築できます。このエクスポートとダウンストリーム分析を実行する方法については、このリポジトリにアクセスしてください。
Azure で FHIR を使用する実践的な例も見ることができますが、チュートリアル コンテンツには VCF ファイルが含まれていないため、独自の VCF ファイルを用意する必要があることに注意してください。
医用画像解析には大規模な画像ファイルの解析が必要であり、多くの場合、エラスティック ストレージと高速コンピューティングが必要です。 Microsoft Azure は、Azure Healthcare API および Azure Medical Imaging ソリューションを通じて、クラウドベースの医療画像分析機能を提供します。 Azure の DICOM サービスを使用すると、業界標準の DICOM (Digital Imaging and Communications in Medicine) 形式を使用して、クラウドでの医療画像の安全な保存、管理、処理が可能になります。 DICOM サービスは、高可用性、災害復旧、スケーラブルなストレージ オプションなどの機能を提供し、大量の医療画像データを保存、管理、分析する必要があるパイプラインにとって理想的なソリューションとなります。さらに、サーバーは Azure ML などの他の Azure サービスと統合されており、オブジェクトの検出、セグメンテーション、分類などの画像分析タスクでの高度な機械学習アルゴリズムの使用が容易になります。サービスをデプロイする方法については、こちらをお読みください。
Microsoft は、Azure Machine Learning でのさまざまな医用画像のユースケースを紹介する医用画像ノートブックをいくつか用意しています。これらのノートブックでは、PyTorch を使用した手動モデル開発、自動機械学習、再トレーニングを含む医療ユースケースにおける機械学習ライフサイクルを自動化するための MLOPS ベースの例など、さまざまなデータ サイエンス手法を示します。これらのノートブックはここから入手できます。 Pytorch を含むカーネルを必ず選択してください。そうでない場合は、依存関係のインストールが困難になる可能性があります。ほとんどのノートブック セルには GPU VM を使用する必要がありますが、複数のコンピューティング環境を作成し、必要に応じてそれらを切り替えることができることにも注意してください。終了したら必ず電源を切ってください。
マルチモーダル臨床情報学に興味のある Cloud Lab ユーザー向けに、DICOMcast は DICOM サービスから FHIR サービスにデータを同期する機能を提供し、ユーザーが臨床データと画像データを統合できるようにします。 DICOMcast は、長期にわたる患者データの合理化されたビューと、医学研究、分析、機械学習のためのコホートを効果的に作成する機能の両方をサポートすることにより、医療データのユースケースを拡張します。 DICOMcast の利用方法の詳細については、Microsoft のドキュメントまたはオープンソースの GitHub リポジトリを参照してください。
画像データで深層学習モデルをトレーニングしたいユーザーのために、InnerEye-DeepLearning (IE-DL) は、3D 医療画像で深層学習モデルを簡単にトレーニングするために Microsoft が開発したツールボックスです。 Azure Machine Learning を使用すると、ローカルとクラウドの両方で簡単に実行できるため、ユーザーは次の推論をトレーニングして実行できます。 • セグメンテーション モデル • 分類モデルと回帰モデル • 独自モデルのセットアップによる任意の PyTorch Lightning モデルこのプロジェクトは別の GitHub リポジトリに存在します。
Microsoft は、多くの Cloud Lab ユーザーにとって役立つゲノミクス関連の製品をいくつか提供しています。広範な概要については、Microsoft Genomics Community サイトを参照してください。また、さまざまな実行オプションの概要についてはこのブログから、AWS Batch を使用した Nextflow の詳細な分析についてはこのブログから入手できます。ここではいくつかの主要なサービスを取り上げます。
ゲノムワイド関連研究 (GWAS) は、多くの個人のゲノムを分析して、形質、疾患、またはその他の表現型に関連する一般的な遺伝的変異を特定する大規模な研究です。
NCBI BLAST (Basic Local Alignment Search Tool) は、国立バイオテクノロジー情報センター (NCBI) が提供する広く使用されているバイオインフォマティクス プログラムであり、ヌクレオチドまたはタンパク質の配列を大規模なデータベースと比較して、類似した配列を特定し、進化的関係、機能的注釈、および構造的配列を推測します。情報。
RNA-seq 解析は、遺伝子発現レベルとトランスクリプトームダイナミクスの測定と特性評価を可能にするハイスループット シーケンス手法です。ワークフローは通常、ワークフロー マネージャーを使用して実行され、最終結果は多くの場合ノートブックで視覚化できます。
シングルセル RNA シーケンス (scRNA-seq) は、個々の細胞レベルでの遺伝子発現の分析を可能にし、細胞の不均一性についての洞察を提供し、希少な細胞タイプを同定し、複雑な生物学的システム内の細胞の動態と機能状態を明らかにする技術です。
ロングリード DNA シーケンス解析には、リードの長さが約 150 bp であるショートリード シーケンシングと比較して、通常 10,000 塩基対 (bp) を超える長さのシーケンシング リードの解析が含まれます。 Oxford Nanopore には、バリアント呼び出し、RNAseq、Sars-Cov-2 分析などを含むさまざまな作業を行うために長時間読み取られたデータを処理するためのノートブック チュートリアルがかなり完全に提供されています。ここと GitHub のノートブックにアクセスしてください。これらのノートブックは、ローカルで実行し、epi2me ノートブック サーバーにアクセスすることを想定しています。これらを Cloud Lab で実行するには、サーバーに接続する最初のセルをスキップすると、ノートブックの残りの部分がいくつかの調整で正しく実行されるはずです。 Oxford Nanopore は、さまざまな長い読み取りパイプラインを実行できる Nextflow ワークフローのホストも提供します。
これらの公開されているデータセットは、厳選されてワークフローですぐに使用できるため、データの検出と準備にかかる時間を節約できます。