AWS에서 워크플로를 실행하는 방법에는 여러 가지가 있습니다. 여기에는 서로 다른 연구 목적에 적용될 수 있는 몇 가지 가능성이 나열되어 있습니다. 아래의 다양한 튜토리얼을 진행하면서 여기에 나열된 다른 방법 중 하나를 사용하여 해당 워크플로를 보다 효율적으로 실행할 수 있는 방법에 대해 생각해 보십시오. 여기에 나온 용어나 개념에 익숙하지 않은 경우 AWS Jumpstart 페이지를 검토하십시오.
screen
사용하거나 메타데이터로 첨부된 시작 스크립트로 실행하는 것입니다. EC2를 사용하여 파이프라인을 실행하는 방법에 대한 자세한 내용은 아래 GWAS 튜토리얼을 참조하세요.이러한 자습서 중 다수에서는 특히 자습서에서 "액세스 키 ID" 및 "비밀 키"를 요구할 때마다 리소스를 생성하고 사용하려면 단기 액세스 키가 필요합니다. 단기 액세스 키를 얻고 사용하는 방법에 대한 설명을 보려면 이 가이드를 사용하세요. NIH 소속 연구원, 즉 NIH에서 근무하지 않지만 Cloud Lab 계정이 있는 경우 키에 접근할 수 없습니다. 완료할 수 없는 튜토리얼이 있는 경우 [email protected]로 도움을 요청하세요.
또한 GPU 시스템은 대부분의 CPU 시스템보다 비용이 많이 들므로 사용 후에는 해당 시스템을 종료하거나 EC2 수명 주기 구성을 적용하십시오. 값비싼 머신 유형을 실수로 사용하는 것을 방지하기 위해 서비스 할당량이 발생할 수도 있습니다. 이런 경우에도 여전히 특정 인스턴스 유형을 사용하려면 다음 지침을 따르십시오.
머신 러닝은 컴퓨터가 명시적으로 프로그래밍하지 않고도 데이터를 학습하고 데이터를 기반으로 예측 또는 결정을 내릴 수 있도록 하는 알고리즘 및 모델 개발에 중점을 두는 인공 지능의 하위 분야입니다. 인공 지능과 기계 학습 알고리즘은 이미지 분류부터 게놈 변이 호출에 이르기까지 다양한 생물 의학 연구 질문에 적용되고 있습니다. AWS에는 사용 가능한 AI/ML 튜토리얼의 긴 목록이 있으며 여기에 목록을 정리했습니다. 가장 최근의 개발은 텍스트에서 정보 추출, 음성을 텍스트로 변환, 텍스트에서 이미지 생성과 같은 사용 사례를 포함한 생성적 AI에 중점을 두고 있습니다. Sagemaker Studio를 사용하면 사용자는 생성 AI 모델을 신속하게 생성, 테스트 및 교육할 수 있으며 JumpStart에 포함된 모든 모델을 사용할 수 있습니다. 이러한 모델은 기초 모델, 미세 조정 가능한 모델, 작업별 솔루션까지 다양합니다.
의료 정보학 또는 의료 정보학으로도 알려진 임상 정보학은 데이터 과학을 의료 데이터에 적용하여 환자 치료를 개선하고 임상 프로세스를 향상하며 의학 연구를 촉진하는 학제간 분야입니다. 여기에는 전자 건강 기록, 인구 통계 또는 환경 데이터를 비롯한 다양한 데이터 유형을 통합하는 작업이 포함되는 경우가 많습니다. AWS는 인구 건강 데이터 분석을 위해 AWS HealthLake를 안내하는 두 가지 온디맨드 워크숍을 제공합니다. 이 첫 번째 워크숍에서는 HealthLake에 데이터를 수집하고, Athena를 사용하여 해당 데이터를 쿼리하고, QuickSight를 사용하여 이러한 데이터를 시각화한 다음, FHIR 데이터를 환경 데이터와 결합하고 결합된 데이터 세트를 시각화하는 방법을 보여줍니다. 두 번째 워크숍에서는 또한 데이터를 HealthLake에 수집한 다음 의료 기기 데이터를 시각화하고 AI를 사용하여 임상 노트를 요약한 다음 임상 오디오 파일을 복사하여 요약합니다.
차세대 유전자 서열 데이터는 NCBI SRA(Sequence Read Archive)에 보관되어 있습니다. SRA 툴킷을 사용하여 이러한 데이터에 액세스할 수 있습니다. 이 노트북을 사용하여 이를 안내하고 Athena 테이블을 설정하고 검색하여 가입 목록을 생성하는 방법도 안내합니다. 사용 가능한 데이터세트 테이블에 대한 자세한 내용은 이 가이드를 참조하세요. 추가 예제 노트북은 이 NCBI 저장소에서 찾을 수 있습니다. 특히 Athena를 사용하여 SRA 분류학적 분석 결과에 액세스하는 방법을 자세히 설명하는 이 노트북(https://github.com/ncbi/ASHG-Workshop-2021/blob/main/3_Biology_Example_AWS_Demo.ipynb)을 권장합니다. 오염, 오류 또는 본질적으로 메타게놈 샘플로 인해 사용자가 입력한 종 이름과 종종 다른 도구입니다.
GWAS(게놈 연관 연구)는 많은 개인의 게놈을 분석하여 특성, 질병 또는 기타 표현형과 관련된 공통 유전 변이를 식별하는 대규모 조사입니다.
의료 영상 분석에는 대용량 이미지 파일 분석이 필요하며 탄력적인 스토리지와 가속화된 컴퓨팅이 필요한 경우가 많습니다.
RNA-seq 분석은 유전자 발현 수준과 전사체 역학을 측정하고 특성화할 수 있는 높은 처리량의 시퀀싱 방법입니다. 워크플로는 일반적으로 워크플로 관리자를 사용하여 실행되며 최종 결과는 노트북에서 시각화되는 경우가 많습니다.
단일 세포 RNA 시퀀싱(scRNA-seq)은 개별 세포 수준에서 유전자 발현 분석을 가능하게 하고, 세포 이질성에 대한 통찰력을 제공하고, 희귀한 세포 유형을 식별하고, 복잡한 생물학적 시스템 내에서 세포 역학 및 기능 상태를 밝혀내는 기술입니다.
NCBI BLAST(Basic Local Alignment Search Tool)는 NCBI(National Center for Biotechnology Information)에서 제공하는 널리 사용되는 생물정보학 프로그램으로, 뉴클레오티드 또는 단백질 서열을 대규모 데이터베이스와 비교하여 유사한 서열을 식별하고 진화 관계, 기능적 주석 및 구조를 추론합니다. 정보. NCBI 팀은 ElasticBLAST라는 클라우드용 BLAST 버전을 작성했으며 여기에서 이에 대한 모든 내용을 읽을 수 있습니다. 기본적으로 ElasticBLAST는 BLAST 작업을 AWS Batch에 제출하고 결과를 S3에 다시 쓰는 데 도움이 됩니다. Cloud Shell의 예시 튜토리얼을 자유롭게 시험해 보거나 노트북 버전을 사용해 보세요.
AWS에서 Alpha Fold를 포함한 여러 단백질 접기 알고리즘을 실행할 수 있습니다. 데이터베이스가 너무 크기 때문에 일반적으로 설정이 매우 어렵지만 AWS는 Alpha Fold 및 기타 단백질 접기 알고리즘을 실행하는 데 필요한 모든 리소스를 자동으로 회전시키는 StackFormation 스택을 만들었습니다. 여기에서 AWS 리소스에 대해 읽을 수 있고 여기에서 GitHub 페이지를 볼 수 있습니다. 이 작업을 수행하려면 다음 지침에 따라 보안 그룹을 수정해야 합니다. 또한 CloudFormation이 사용하는 역할에 추가 권한을 부여해야 할 수도 있습니다. 막히면 [email protected]에 문의하세요. 이 튜토리얼을 사용하여 ESMFold를 실행할 수도 있습니다.
긴 판독 DNA 서열 분석에는 판독 길이가 약 150bp인 짧은 판독 시퀀싱과 비교하여 일반적으로 길이가 10,000개 염기쌍(bp)보다 긴 시퀀싱 판독을 분석하는 작업이 포함됩니다. Oxford Nanopore는 변종 호출, RNAseq, Sars-Cov-2 분석 등 다양한 작업을 수행하기 위해 긴 읽기 데이터를 처리하기 위한 매우 완벽한 노트북 튜토리얼을 제공합니다. 여기에서 노트북에 액세스하세요. 이러한 노트북은 사용자가 로컬로 실행 중이고 Epi2me 노트북 서버에 액세스할 것으로 예상합니다. Cloud Lab에서 실행하려면 서버에 연결하는 첫 번째 셀을 건너뛰면 노트북의 나머지 부분이 몇 가지 조정을 거쳐 올바르게 실행됩니다. 단지 노트북을 사용해 보고 싶다면 이것부터 시작하지 마세요. 긴 판독 순서 분석에 관심이 있는 경우 이를 Cloud Lab 환경에 적용하기 위해 몇 가지 문제 해결이 필요할 수 있습니다. 명령을 적용하여 새 노트북에 다시 작성해야 할 수도 있습니다. 도움이 필요하면 언제든지 지원팀에 문의하세요.
ATOM(Accelerating Therapeutics for Opportunities in Medicine) 컨소시엄은 신약 발견에 대한 ATOM 접근 방식을 안내하는 Jupyter 노트북 시리즈를 만들었습니다.
이 노트북은 Google Colab에서 실행하기 위해 생성되었으므로 AWS에서 실행하는 경우 몇 가지 수정이 필요합니다. 먼저, Tensorflow 및 기타 종속 항목이 설치되어 있기 때문에 사용자 관리형 노트북보다는 Sagemaker Studio 노트북을 사용하는 것이 좋습니다. 인스턴스에 GPU를 연결해야 합니다(T4도 괜찮습니다). 또한 %tensorflow_version 2.x
는 Colab 전용 명령이므로 주석 처리해야 합니다. 또한 필요에 따라 몇 가지 패키지를 pip install
해야 합니다. deepchem
에 오류가 발생하면 pip install --pre deepchem[tensorflow]
및/또는 pip install --pre deepchem[torch]
실행해 보세요. 또한 일부 노트북에는 Tensorflow 커널이 필요하고 다른 노트북에는 Pytorch가 필요합니다. 또한 Pandas 오류가 발생하거나 ATOM GitHub 개발자에게 최상의 솔루션을 문의하거나 문제를 검토할 수도 있습니다.
저온전자현미경(cryoEM)은 구조 생물학에서 단백질, 핵산, 거대 분자 복합체와 같은 생물학적 거대분자의 구조를 원자에 가까운 분해능이나 원자 분해능으로 시각화하는 데 사용되는 강력한 이미징 기술입니다. 이는 생체분자의 기능을 이해하는 데 중요한 생체분자의 상세한 3차원 구조를 제공함으로써 구조 생물학 분야에 혁명을 일으켰습니다.
AWS에는 테스트에 통합하거나 자체 연구에 사용할 수 있는 많은 공개 데이터가 있습니다. AWS의 공개 데이터 레지스트리에서 이러한 데이터 세트에 액세스할 수 있습니다. 여기에서 데이터세트 중 하나를 클릭하면 해당 데이터에 대한 S3 경로는 물론 해당 데이터를 사용한 출판물과 튜토리얼도 볼 수 있습니다. 시연을 위해 gnomad 데이터세트를 클릭한 다음 S3 경로를 가져오고 명령줄에 https://registry.opendata.aws/broad-gnomad/
붙여넣어 파일을 볼 수 있습니다.