이 저장소는 NIH STRIDES Initiative에 속합니다. STRIDES는 클라우드의 힘을 활용하여 생물의학적 발견을 가속화하는 것을 목표로 합니다. 자세한 내용을 알아보려면 https://cloud.nih.gov를 방문하세요.
NIH Cloud Lab의 목표는 클라우드를 쉽고 액세스 가능하게 만들어서 관리 작업에 소요되는 시간을 줄이고 연구에 더 집중할 수 있도록 하는 것입니다.
이 리포지토리를 사용하여 연결된 리소스를 탐색하고 자습서를 살펴보며 Azure 사용 방법을 알아보세요. 초보자라면 여기로 돌아오기 전에 Cloud Lab 웹사이트의 Jumpstart 섹션부터 시작하는 것이 좋습니다.
머신 러닝은 컴퓨터가 명시적으로 프로그래밍하지 않고도 데이터를 학습하고 데이터를 기반으로 예측 또는 결정을 내릴 수 있도록 하는 알고리즘 및 모델 개발에 중점을 두는 인공 지능의 하위 분야입니다. 인공 지능과 기계 학습 알고리즘은 이미지 분류부터 게놈 변이 호출에 이르기까지 다양한 생물 의학 연구 질문에 적용되고 있습니다. Azure는 Azure AI Studio 및 Azure Machine Learning을 통해 AI 서비스를 제공합니다.
Azure AI Studio, Azure OpenAI, Azure AI Search 등의 Azure 제품과 Langchain과 같은 외부 도구를 강조하는 Azure의 Gen AI에 대해 자세히 알아보려면 자습서 모음을 참조하세요. 이러한 노트북은 모델을 배포, 교육 및 쿼리하는 방법은 물론 RAG(검색 증강 생성)와 같은 기술을 구현하는 방법을 안내합니다. csv 또는 json 파일과 같은 구조화된 데이터를 사용하도록 모델을 구성하는 데 관심이 있는 경우 Azure UI를 사용하여 csv를 인덱싱하고 Azure ML 내의 노트북을 사용하여 데이터베이스를 쿼리하는 방법을 안내하는 자습서를 만들었습니다. 노트북에서 직접 필요한 모든 단계를 실행하는 또 다른 튜토리얼도 있습니다.
Azure Health Data Services는 Azure에서 의료 데이터를 저장, 처리 및 분석할 수 있는 서비스 집합입니다. 이러한 서비스는 조직이 정형 데이터, 영상 데이터, 장치 데이터 등 서로 다른 건강 데이터 소스 및 형식을 신속하게 연결하고 정규화하여 클라우드에 유지되도록 지원하도록 설계되었습니다. Azure Health Data Services의 핵심에는 데이터를 FHIR(Fast Healthcare Interoperability Resources) 형식으로 변환하고 수집하는 기능이 있습니다. 이를 통해 HL7v2 또는 CDA와 같은 레거시 형식의 건강 데이터나 장치 독점 형식의 고주파 IoT 데이터를 FHIR로 변환할 수 있습니다. 이를 통해 Azure Synapse Analytics 및 Azure Machine Learning(Azure ML)과 같은 Azure 에코시스템 전반의 서비스와 Azure Health Data Services에 저장된 데이터를 더 쉽게 연결할 수 있습니다.
Azure Health Data Services에는 구조화된 데이터 교환을 위한 여러 건강 데이터 표준에 대한 지원과 서로 원활하게 작동하는 다양한 서비스 유형(FHIR, DICOM 및 MedTech)의 여러 인스턴스를 배포하는 기능이 포함되어 있습니다. 작업 영역 내에 배포된 서비스는 규정 준수 경계 및 공통 구성 설정도 공유합니다. 제품은 워크로드의 다양한 요구 사항에 맞게 자동으로 확장되므로 인프라 관리에 소요되는 시간을 줄이고 상태 데이터에서 통찰력을 얻는 데 더 많은 시간을 할애할 수 있습니다.
Azure FHIR 서버에 저장된 의료 데이터를 Synapse Analytics에 복사하면 연구원은 클라우드 규모 데이터 웨어하우징 및 분석 도구를 활용하여 데이터에서 통찰력을 추출하고 확장 가능한 연구 파이프라인을 구축할 수 있습니다. 내보내기 및 다운스트림 분석을 수행하는 방법에 대한 자세한 내용을 보려면 이 저장소를 방문하세요.
Azure에서 FHIR을 사용하는 실습 예제도 볼 수 있지만, 튜토리얼 콘텐츠에서는 제공되지 않는 VCF 파일을 직접 제공해야 합니다.
의료 영상 분석에는 대용량 이미지 파일 분석이 필요하며 탄력적인 스토리지와 가속화된 컴퓨팅이 필요한 경우가 많습니다. Microsoft Azure는 Azure Healthcare API 및 Azure Medical Imaging 솔루션을 통해 클라우드 기반 의료 영상 분석 기능을 제공합니다. Azure의 DICOM 서비스를 사용하면 업계 표준 DICOM(Digital Imaging and Communications in Medicine) 형식을 사용하여 클라우드에서 의료 이미지를 안전하게 저장, 관리 및 처리할 수 있습니다. DICOM 서비스는 고가용성, 재해 복구, 확장 가능한 스토리지 옵션과 같은 기능을 제공하므로 대량의 의료 영상 데이터를 저장, 관리 및 분석해야 하는 파이프라인에 이상적인 솔루션입니다. 또한 서버는 Azure ML과 같은 다른 Azure 서비스와 통합되어 개체 감지, 분할 및 분류와 같은 이미지 분석 작업을 위한 고급 기계 학습 알고리즘의 사용을 촉진합니다. 여기에서 서비스 배포 방법을 읽어보세요.
Microsoft에는 Azure Machine Learning에 대한 다양한 의료 영상 사용 사례를 보여주는 여러 의료 영상 노트북이 있습니다. 이 노트북은 PyTorch를 사용한 수동 모델 개발, 자동화된 기계 학습, 재교육을 포함한 의료 사용 사례에서 기계 학습 수명주기를 자동화하기 위한 MLOPS 기반 예제와 같은 다양한 데이터 과학 기술을 보여줍니다. 이 노트북은 여기에서 구할 수 있습니다. Pytorch가 포함된 커널을 선택했는지 확인하세요. 그렇지 않으면 종속성 설치가 어려울 수 있습니다. 또한 대부분의 노트북 셀에는 GPU VM을 사용해야 하지만 여러 컴퓨팅 환경을 생성하고 필요에 따라 전환할 수 있습니다. 작업이 끝나면 반드시 전원을 꺼주세요.
다중 모드 임상 정보학에 관심이 있는 Cloud Lab 사용자를 위해 DICOMcast는 DICOM 서비스의 데이터를 FHIR 서비스로 동기화하는 기능을 제공하여 사용자가 임상 및 영상 데이터를 통합할 수 있도록 합니다. DICOMcast는 종단적 환자 데이터에 대한 간소화된 보기와 의학 연구, 분석 및 기계 학습을 위한 코호트를 효과적으로 생성하는 기능을 모두 지원하여 건강 데이터의 사용 사례를 확장합니다. DICOMcast 활용 방법에 대한 자세한 내용은 Microsoft 설명서 또는 오픈 소스 GitHub 저장소를 참조하세요.
InnerEye-DeepLearning(IE-DL)은 이미징 데이터에 대한 딥 러닝 모델을 훈련하려는 사용자를 위해 Microsoft가 3D 의료 이미지에 대한 딥 러닝 모델을 쉽게 훈련하기 위해 개발한 도구 상자입니다. Azure Machine Learning을 사용하여 로컬 및 클라우드 모두에서 간단하게 실행할 수 있으며 사용자는 다음에 대해 추론을 훈련하고 실행할 수 있습니다. • 분할 모델 • 분류 및 회귀 모델 • 자체 모델 설정을 통한 모든 PyTorch Lightning 모델 이 프로젝트는 별도의 GitHub 저장소에 존재합니다.
Microsoft에는 많은 Cloud Lab 사용자에게 유용한 여러 가지 유전체학 관련 제품이 있습니다. 광범위한 개요를 보려면 Microsoft Genomics 커뮤니티 사이트를 방문하세요. 또한 이 블로그에서 다양한 실행 옵션에 대한 개요를 확인할 수 있으며, 이 블로그에서 AWS Batch를 사용한 Nextflow에 대한 자세한 분석을 확인할 수 있습니다. 여기서는 몇 가지 주요 서비스를 강조합니다.
GWAS(게놈 연관 연구)는 많은 개인의 게놈을 분석하여 특성, 질병 또는 기타 표현형과 관련된 공통 유전 변이를 식별하는 대규모 조사입니다.
NCBI BLAST(Basic Local Alignment Search Tool)는 NCBI(National Center for Biotechnology Information)에서 제공하는 널리 사용되는 생물정보학 프로그램으로, 뉴클레오티드 또는 단백질 서열을 대규모 데이터베이스와 비교하여 유사한 서열을 식별하고 진화 관계, 기능적 주석 및 구조를 추론합니다. 정보.
RNA-seq 분석은 유전자 발현 수준과 전사체 역학을 측정하고 특성화할 수 있는 높은 처리량의 시퀀싱 방법입니다. 워크플로는 일반적으로 워크플로 관리자를 사용하여 실행되며 최종 결과는 노트북에서 시각화되는 경우가 많습니다.
단일 세포 RNA 시퀀싱(scRNA-seq)은 개별 세포 수준에서 유전자 발현 분석을 가능하게 하고, 세포 이질성에 대한 통찰력을 제공하고, 희귀한 세포 유형을 식별하고, 복잡한 생물학적 시스템 내에서 세포 역학 및 기능 상태를 밝혀내는 기술입니다.
긴 판독 DNA 서열 분석에는 판독 길이가 약 150bp인 짧은 판독 시퀀싱과 비교하여 일반적으로 길이가 10,000개 염기쌍(bp)보다 긴 시퀀싱 판독을 분석하는 작업이 포함됩니다. Oxford Nanopore는 변종 호출, RNAseq, Sars-Cov-2 분석 등 다양한 작업을 수행하기 위해 긴 읽기 데이터를 처리하기 위한 매우 완벽한 노트북 튜토리얼을 제공합니다. 여기와 GitHub에서 노트북에 액세스하세요. 이러한 노트북은 사용자가 로컬로 실행 중이고 Epi2me 노트북 서버에 액세스할 것으로 예상합니다. Cloud Lab에서 실행하려면 서버에 연결하는 첫 번째 셀을 건너뛰면 노트북의 나머지 부분이 몇 가지 조정을 거쳐 올바르게 실행됩니다. Oxford Nanopore는 또한 다양한 장기 읽기 파이프라인을 실행할 수 있는 다양한 Nextflow 워크플로를 제공합니다.
공개적으로 사용 가능한 이러한 데이터 세트는 선별되어 워크플로에서 사용할 수 있으므로 데이터 검색 및 준비 시간을 절약할 수 있습니다.