GCP에서 워크플로를 실행하는 방법에는 여러 가지가 있습니다. 여기에는 서로 다른 연구 목적에 적용될 수 있는 몇 가지 가능성이 나열되어 있습니다. 아래의 다양한 튜토리얼을 진행하면서 여기에 나열된 다른 방법 중 하나를 사용하여 해당 워크플로를 보다 효율적으로 실행할 수 있는 방법에 대해 생각해 보십시오.
screen
사용하거나 메타데이터로 첨부된 시작 스크립트로 실행하는 것입니다.managed notebooks
과 user managed notebooks
간에 차이가 있습니다. managed notebooks
더 많은 기능이 있고 예약할 수 있지만 Conda 환경/설치에 대한 제어 권한은 적습니다.머신 러닝은 컴퓨터가 명시적으로 프로그래밍하지 않고도 데이터로부터 학습하고 데이터를 기반으로 예측 또는 결정을 내릴 수 있도록 하는 알고리즘 및 모델 개발에 중점을 두는 인공 지능의 하위 분야입니다. GCP의 머신러닝은 일반적으로 VertexAI 내에서 발생합니다. 이 Google 단기집중과정에서 GCP의 기계 학습에 대해 자세히 알아볼 수 있습니다. 실습 예제를 보려면 샌프란시스코 주립 대학에서 개발한 이 모듈이나 NIGMS 샌드박스 프로젝트를 위해 개발한 아카사스 대학의 이 모듈을 사용해 보세요.
이제 Gen AI(Generative AI) 시대가 도래함에 따라 Google은 Vertex AI 제품군 내에서 다양한 Gen AI 제품을 출시했습니다. 생성적 AI 모델이 수행할 수 있는 기능에 대한 몇 가지 예로는 텍스트에서 원하는 정보를 추출하고, 음성을 텍스트로 변환하고, 설명에서 이미지를 생성하거나 그 반대로 이미지를 생성하는 등이 있습니다. Vertex AI의 Vertex AI Studio 콘솔을 사용하면 사용자는 안전하고 보안이 유지되는 환경에서 클라우드의 생성 AI 모델을 신속하게 생성, 테스트, 학습할 수 있습니다. 이 튜토리얼의 개요를 참조하세요. 스튜디오에는 모델 정원(Model Garden) 내에 바로 사용할 수 있는 모델도 모두 포함되어 있습니다. 이러한 모델은 기초 모델, 미세 조정 가능한 모델, 작업별 솔루션까지 다양합니다.
의료 영상 분석은 진단, 치료 계획 및 연구 목적을 위해 의료 영상에서 의미 있는 정보를 추출하기 위해 컴퓨터 알고리즘과 기술을 적용하는 것입니다. 의료 이미지 분석에는 대용량 이미지 파일과 탄력적인 스토리지 및 가속화된 컴퓨팅이 필요한 경우가 많습니다.
차세대 유전자 서열 데이터는 NCBI SRA(Sequence Read Archive)에 보관되어 있습니다. SRA 툴킷을 사용하여 이러한 데이터에 액세스할 수 있습니다. BigQuery를 사용하여 액세스 목록을 생성하는 방법을 포함하여 이 노트북을 사용하여 이를 안내합니다. 또한 BigQuery를 사용하여 이 설정 가이드와 쿼리 가이드를 사용하여 다운로드할 액세스 목록을 만들 수도 있습니다. 추가 예제 노트북은 이 NCBI 저장소에서 찾을 수 있습니다. 특히 BigQuery를 사용하여 SRA 분류학적 분석 결과에 액세스하는 방법을 자세히 설명하는 이 노트북(https://github.com/ncbi/ASHG-Workshop-2021/blob/main/1_Basic_BigQuery_Examples.ipynb)을 권장합니다. 오염, 오류 또는 본질적으로 메타게놈 샘플로 인해 사용자가 입력한 종 이름과 종종 다른 도구입니다. 또한 이 노트북은 BigQuery 결과를 파싱하는 방법을 자세히 설명하고 SRA에서 샘플을 검색하는 방법에 대한 좋은 아이디어를 제공할 수 있습니다. SRA 메타데이터 및 분류 분석은 별도의 BigQuery 테이블에 있습니다. 이 Powerpoint 또는 여기 튜토리얼에서 SQL을 사용하여 두 테이블을 조인하는 방법을 알아볼 수 있습니다. 마지막으로 NCBI는 NCBI 데이터세트를 사용하여 다양한 BigQuery 애플리케이션을 살펴보는 워크숍을 발표했습니다.
게놈 변이 호출은 개인의 유전적 구성의 차이를 이해하기 위해 DNA 염기서열 분석 데이터에서 유전적 변이를 식별하고 특성화하는 프로세스입니다.
게놈 변이 호출 워크플로의 출력은 변이 호출 형식(VCF)의 파일입니다. 이는 Big Query와 같은 데이터베이스 쿼리 도구를 사용하여 검색할 수 있는 대규모의 구조화된 데이터 파일인 경우가 많습니다.
GWAS(게놈 연관 연구)는 많은 개인의 게놈을 분석하여 특성, 질병 또는 기타 표현형과 관련된 일반적인 유전적 변이를 식별하는 대규모 조사입니다.
단백질체학(Proteomics)은 세포, 조직 또는 유기체의 전체 단백질 세트에 대한 연구로, 단백질의 구조, 기능 및 상호 작용을 이해하여 생물학적 과정과 질병에 대한 통찰력을 밝히는 것을 목표로 합니다. 대부분의 1차 단백질체학 분석은 독점 소프트웨어 플랫폼에서 발생하지만 많은 2차 분석은 Jupyter 또는 R 노트북에서 발생합니다. 여기에는 몇 가지 예가 나와 있습니다.
Custom container
선택한 후 Docker container image
의 경우 west1-docker.pkg.dev/cloud-devrel-public-resources/alphafold/alphafold-on-gcp:latest
에 붙여넣습니다.RNA-seq 분석은 유전자 발현 수준과 전사체 역학을 측정하고 특성화할 수 있는 높은 처리량의 시퀀싱 방법입니다. 워크플로는 일반적으로 워크플로 관리자를 사용하여 실행되며 최종 결과는 노트북에서 시각화되는 경우가 많습니다.
전사체 어셈블리는 단편화된 시퀀싱 데이터로부터 세포 또는 조직의 전체 RNA 전사체 세트를 재구성하는 프로세스로, 유전자 발현 및 기능 분석에 대한 귀중한 통찰력을 제공합니다.
단일 세포 RNA 시퀀싱(scRNA-seq)은 개별 세포 수준에서 유전자 발현 분석을 가능하게 하고, 세포 이질성에 대한 통찰력을 제공하고, 희귀한 세포 유형을 식별하고, 복잡한 생물학적 시스템 내에서 세포 역학 및 기능 상태를 밝혀내는 기술입니다.
ATAC-seq는 접근 가능하고 잠재적으로 유전자 조절에 관여하는 DNA 영역을 식별함으로써 과학자들이 DNA가 세포에 어떻게 포장되어 있는지 이해할 수 있게 해주는 기술입니다. - 이 모듈에서는 Google Cloud에서 ATACseq 및 단일 셀 ATACseq 워크플로를 통해 작업하는 방법을 안내합니다. 이 모듈은 NIGMS 샌드박스 프로젝트를 위해 네브래스카 대학 의료 센터에서 개발되었습니다.
가장 풍부하고 잘 연구된 후성유전적 변형 중 하나인 DNA 메틸화는 정상적인 세포 발달에 필수적인 역할을 하며 전사, 게놈 안정성 및 세포 내 DNA 패키징에 다양한 영향을 미칩니다. Methylseq은 게놈의 메틸화 영역을 식별하는 기술입니다.
Metagenomics는 환경 샘플에서 직접 수집된 유전 물질에 대한 연구로, 실험실 배양 없이 미생물 군집, 다양성 및 기능적 잠재력을 탐색할 수 있습니다. - 이 모듈은 명령줄과 Nextflow를 사용하여 메타게놈 분석을 수행하는 과정을 안내합니다. 이 모듈은 NIGMS 샌드박스 프로젝트의 일부로 사우스다코타 대학교에서 개발되었습니다.
Multiomic 분석에는 추가적인 통찰력을 생성하기 위해 양식(예: 게놈, 전사체, 표현형) 전반에 걸쳐 데이터를 통합하는 작업이 포함됩니다.
바이오마커 발견은 생물학적 과정, 질병 또는 치료 반응의 지표 역할을 할 수 있는 특정 분자 또는 특성을 식별하고 진단, 예후 및 맞춤 의학을 돕는 과정입니다. 바이오마커 발견은 일반적으로 건강한 상태와 건강한 상태를 구별하는 패턴이나 시그니처를 식별하기 위해 고처리량 스크리닝, 생물정보학 및 통계 분석을 포함한 고급 기술을 사용하여 유전체학, 단백질체학, 대사체학 및 임상 데이터와 같은 다양한 유형의 데이터에 대한 포괄적인 분석을 통해 수행됩니다. 질병에 걸린 개인, 특정 치료에 대한 반응자와 비반응자.
NCBI BLAST(Basic Local Alignment Search Tool)는 NCBI(National Center for Biotechnology Information)에서 제공하는 널리 사용되는 생물정보학 프로그램으로, 뉴클레오티드 또는 단백질 서열을 대규모 데이터베이스와 비교하여 유사한 서열을 식별하고 진화 관계, 기능적 주석 및 구조를 추론합니다. 정보.
긴 판독 DNA 서열 분석에는 판독 길이가 약 150bp인 짧은 판독 시퀀싱과 비교하여 일반적으로 길이가 10,000개 염기쌍(bp)보다 긴 시퀀싱 판독을 분석하는 작업이 포함됩니다. Oxford Nanopore는 변종 호출, RNAseq, Sars-Cov-2 분석 등 다양한 작업을 수행하기 위해 긴 읽기 데이터를 처리하기 위한 매우 완벽한 노트북 튜토리얼을 제공합니다. 여기에서 노트북 목록과 설명을 찾거나 GitHub 리포지토리를 복제할 수 있습니다. 이러한 노트북은 사용자가 로컬로 실행 중이고 epi2me 노트북 서버에 액세스할 것으로 예상합니다. Cloud Lab에서 실행하려면 서버에 연결하는 첫 번째 셀을 건너뛰면 노트북의 나머지 부분이 몇 가지 조정을 거쳐 올바르게 실행됩니다.
ATOM(Acceleration Therapeutics for Opportunities in Medicine) 컨소시엄은 신약 발견에 대한 ATOM 접근 방식을 안내하는 Jupyter 노트북 시리즈를 만들었습니다.
이 노트북은 Google Colab에서 실행하기 위해 생성되었으므로 Google Cloud에서 실행하는 경우 몇 가지 수정이 필요합니다. 먼저, Google 관리형 노트북에는 이미 Tensorflow 및 기타 종속 항목이 설치되어 있으므로 사용자 관리형 노트북보다는 Google 관리형 노트북을 사용하는 것이 좋습니다. 인스턴스에 GPU를 연결해야 합니다(T4도 괜찮습니다). 또한 %tensorflow_version 2.x
는 Colab 전용 명령이므로 주석 처리해야 합니다. 또한 필요에 따라 몇 가지 패키지를 pip install
해야 합니다. deepchem
에 오류가 발생하면 pip install --pre deepchem[tensorflow]
및/또는 pip install --pre deepchem[torch]
실행해 보세요. 또한 일부 노트북에는 Tensorflow 커널이 필요하고 다른 노트북에는 Pytorch가 필요합니다. Pandas 오류가 발생할 수도 있습니다. 이 문제에 대한 최상의 솔루션을 얻으려면 ATOM GitHub 개발자에게 문의하세요.
Google Batch와 직접 상호작용하여 명령을 제출할 수 있거나 더 일반적으로 Nextflow 및 Cromwell 등과 같은 오케스트레이션 엔진을 통해 상호작용할 수 있습니다. nf-core Methylseq 파이프라인을 실행하는 Nextflow를 사용하여 Google Batch를 활용하는 튜토리얼도 있습니다. 전사체 어셈블리, 멀티오믹스, 메틸 서열 및 메타지노믹스를 포함한 NIGMS Sandbox의 여러 가지입니다.
Life Science API는 GCP에서 감가상각되었으며 2025년 7월 8일부터 더 이상 플랫폼에서 사용할 수 없습니다. 대신 Google Batch를 사용하는 것이 좋습니다. 현재로서는 Life Sciences API와 직접 상호 작용하여 명령을 제출할 수 있으며, 더 일반적으로는 Snakemake와 같은 오케스트레이션 엔진을 통해 상호 작용할 수 있습니다. 현재 이 워크플로 관리자는 Life Sciences API만 지원합니다.
Google에는 테스트에 사용할 수 있는 공개 데이터 세트가 많이 있습니다. 이러한 내용은 여기에서 볼 수 있으며 BigQuery를 통해 또는 Cloud 버킷에서 직접 액세스할 수 있습니다. 예를 들어 명령줄에서 3단계 1k 게놈을 보려면 gsutil ls gs://genomics-public-data/1000-genomes-phase-3
입력하세요.