프로파일링 레시피는 주로 파이사이토마이너 기능을 사용하여 단일 세포 형태학적 프로파일을 처리하는 스크립트 모음입니다. 세 가지 스크립트는 다음과 같습니다.
profiling-pipeline.py
- 이미지 기반 프로필 처리 파이프라인을 실행합니다.csv2gz.py
- .csv
파일을 압축합니다.create_dirs.sh
- 처리 파이프라인의 출력을 저장할 하위 디렉터리를 만듭니다.우리는 패키지 관리자로 Anaconda를 사용합니다. 여기의 지침에 따라 Miniconda를 설치하세요.
대용량 파일 관리를 위해 DVC에서 추적하는 AWS S3 스토리지를 사용합니다. 여기 지침에 따라 AWS CLI를 설치합니다. 설치 후 다음을 사용하여 AWS CLI 설치를 구성합니다.
aws configure
다음 사항을 묻는 메시지가 표시됩니다.
AWS Access Key ID:
YOUR-KEY
AWS Secret Access Key:
YOUR-SECRET-KEY
Default region name:
예: us-east-1
Default output format:
json
입력하는 프로필에는 나중에 설정하는 버킷에 업로드할 수 있는 권한이 있어야 합니다.
AWS에 대용량 파일을 저장/버전 지정하지 않으려면 AWS CLI 설치를 건너뛸 수 있습니다.
프로파일링 파이프라인이 단일 셀 프로필을 집계하는 데 사용되는 경우 .sqlite
파일 크기의 두 배 이상인 메모리가 있는 시스템에서 파이프라인을 실행하는 것이 좋습니다. 파이프라인이 집계의 다운스트림 단계를 실행하는 데에만 사용되는 경우 로컬 시스템에서 실행할 수 있습니다.
파이프라인에는 다음과 같이 생성할 수 있는 특정 폴더 구조가 필요합니다.
PROJECT_NAME= " INSERT-PROJECT-NAME "
mkdir -p ~ /work/projects/ ${PROJECT_NAME} /workspace/{backend,software}
각 배치의 모든 플레이트에 대해 단일 셀 프로필이 포함된 .sqlite
파일과 웰 수준 집계 프로필이 포함된 .csv
파일을 backend
폴더에 다운로드합니다. 이 두 파일은 프로파일링 핸드북의 5.3장에 있는 명령을 실행하여 생성됩니다. 파일을 다운로드한 후 폴더 구조는 다음과 같아야 합니다.
backend
├── batch1
│ ├── plate1
│ │ ├── plate1.csv
│ │ └── plate1.sqlite
│ └── plate2
│ ├── plate2.csv
│ └── plate2.sqlite
└── batch2
├── plate1
│ ├── plate1.csv
│ └── plate1.sqlite
└── plate2
├── plate2.csv
└── plate2.sqlite
참고: 집계가 아직 수행되지 않았을 수 있습니다. 이 경우 .sqlite
파일만 다운로드할 수 있습니다.
용접은 데이터 저장소의 파일과 해당 파일을 생성한 프로파일링 레시피의 스크립트가 함께 버전화되도록 프로파일링 레시피 저장소를 하위 모듈로 데이터 저장소에 추가하는 프로세스입니다. 여기에 용접 지침이 제공됩니다. 프로파일링 레시피를 데이터 저장소에 용접하는 것이 좋습니다. 용접 후 다음 명령을 사용하여 데이터 저장소를 software
폴더에 복제합니다.
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software
git clone < location of the data repository > .git
cd < name of the data repository >
git submodule update --init --recursive
복제 후 폴더 구조는 다음과 같습니다.
software
└── data_repo
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
프로파일링 레시피 저장소를 데이터 저장소에 용접하지 않고도 파이프라인을 실행할 수 있습니다. 이러한 방식으로 실행하는 경우 프로파일링-레시피 저장소를 데이터 디렉터리에 하위 디렉터리로 복제해야 합니다. 그러면 폴더 구조는 다음과 같습니다.
software
└── data_directory
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
요약 통계 테이블을 생성하려면 load_data_csv
파일이 필요합니다. 이러한 파일은 load_data_csv
디렉터리에 다운로드되어야 합니다. 파일이 gzip으로 압축되어 있고 폴더 구조가 다음과 같은지 확인하세요.
load_data_csv/
├── batch1
│ ├── plate1
│ │ ├── load_data.csv.gz
│ │ └── load_data_with_illum.csv.gz
│ └── plate2
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── batch2
├── plate1
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── plate2
├── load_data.csv.gz
└── load_data_with_illum.csv.gz
파이프라인은 데이터 저장소 또는 데이터 디렉터리에서 실행되어야 합니다.
DATA= " INSERT-NAME-OF-DATA-REPO-OR-DIR "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
Environment.yml 파일에는 파이프라인을 실행하는 데 필요한 conda 패키지 목록이 포함되어 있습니다.
cp profiling-recipe/environment.yml .
conda env create --force --file environment.yml
conda activate profiling
이 프로젝트의 DVC를 초기화하고 S3에 대용량 파일을 저장하도록 설정합니다. DVC를 사용하지 않는 경우 이 단계를 건너뛰세요. S3가 아닌 원격 스토리지 위치에 DVC를 사용하려면 여기에서 지침을 찾으세요. 시스템에 여러 AWS 프로필이 있고 DVC에 기본 프로필을 사용하지 않으려는 경우 원격 추가와 최종 DVC 푸시 수행 사이의 어느 시점에서든 dvc remote modify S3storage profile PROFILE_NAME
실행하여 사용할 프로필을 지정할 수 있습니다.
# Navigate
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ < data_repo >
# Initialize DVC
dvc init
# Set up remote storage
dvc remote add -d S3storage s3:// < bucket > /projects/ ${PROJECT_NAME} /workspace/software/ < data_repo > _DVC
# Commit new files to git
git add .dvc/.gitignore .dvc/config
git commit -m " Setup DVC "
파이프라인의 출력을 포함할 디렉터리는 다음과 같이 생성됩니다.
profiling-recipe/scripts/create_dirs.sh
파이프라인을 실행하려면 barcode_platemap.csv
및 platemap.txt
필요합니다. 추가 주석을 위해 선택적 external_metadata.tsv
제공할 수도 있습니다. 다음은 각 파일에 대한 설명입니다.
barcode_platemap.csv
- 플레이트와 플레이트 맵 간의 매핑을 포함합니다. 데이터 배치당 하나의 파일이 있습니다. 파일에는 이름이 Assay_Plate_Barcode
및 Plate_Map_Name
인 두 개의 열이 포함되어 있으며 변경하면 안 됩니다. 파일 이름도 변경하면 안 됩니다. 이 파일은 쉼표로 구분된 .csv
파일이어야 합니다.platemap.txt
- 우물 이름과 섭동 이름 간의 매핑이 포함되어 있습니다. 배치당 플레이트 맵당 하나의 파일이 있습니다. 두 개의 열이 필요합니다. 하나는 well_position
이라는 우물 이름( A01
, A02
...)이 있고 다른 하나는 섭동 식별자가 있습니다. 섭동 식별자 열의 이름은 사용자가 정의할 수 있습니다(변경된 경우 config.yml
파일에서 이름을 변경하세요). 이 파일의 이름은 변경될 수 있습니다. 변경된 경우 barcode_platemap.csv
내에서도 이름을 변경하세요. 이 파일은 탭으로 구분된 .txt
파일이어야 합니다.external_metadata.tsv
- 섭동 식별자와 다른 메타데이터 간의 매핑을 포함합니다. 이 파일은 선택 사항입니다. 섭동 식별자 열은 platemap.txt
의 열과 이름이 동일해야 합니다. 이 파일은 탭으로 구분된 .tsv
파일이어야 합니다. 다음은 barcode_platemap.csv
파일의 예입니다.
Assay_Plate_Barcode,Plate_Map_Name
plate1,platemap
plate2,platemap
다음은 플레이트 맵 파일의 예이고 외부 메타데이터 파일의 예는 다음과 같습니다.
폴더 구조가 아래와 같이 보이도록 이러한 파일을 적절한 폴더에 추가해야 합니다.
metadata
├── external_metadata
│ └── external_metadata.tsv
└── platemaps
├── batch1
│ ├── barcode_platemap.csv
│ └── platemap
│ └── platemap.txt
└── batch2
├── barcode_platemap.csv
└── platemap
└── platemap.txt
CONFIG_FILE= " INSERT-CONFIG-FILE-NAME "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
cp profiling-recipe/config_template.yml config_files/ ${CONFIG_FILE} .yml
구성 파일에는 프로파일링 파이프라인에서 호출되는 다양한 파이사이토마이너 함수에 필요한 모든 매개변수가 포함되어 있습니다. 다양한 매개변수를 사용하여 프로파일링 파이프라인을 실행하려면 여러 구성 파일을 생성할 수 있습니다. 구성 파일의 각 매개변수는 아래에 설명되어 있습니다. 파이프라인을 실행하기 전에 구성 파일에 필요한 모든 변경을 수행해야 합니다.
프로파일링 파이프라인의 첫 번째 단계인 aggregate
이미 수행된 경우( backend
폴더에 .sqlite
파일 외에 .csv
파일이 있음) .csv
파일을 데이터 저장소 또는 데이터 디렉터리에 복사해야 합니다. . 그렇지 않은 경우 프로파일링 파이프라인 실행으로 건너뜁니다.
각 배치에 대해 개별적으로 다음 명령을 실행합니다. 이러한 명령은 각 배치에 대한 폴더를 생성하고 .csv
파일을 압축한 다음 데이터 저장소 또는 데이터 디렉터리에 복사합니다.
BATCH= " INSERT-BATCH-NAME "
mkdir -p profiles/ ${BATCH}
find ../../backend/ ${BATCH} / -type f -name " *.csv " -exec profiling-recipe/scripts/csv2gz.py {} ;
rsync -arzv --include= " */ " --include= " *.gz " --exclude " * " ../../backend/ ${BATCH} / profiles/ ${BATCH} /
config.yml
파일에 필요한 사항을 변경한 후 다음과 같이 프로파일링 파이프라인을 실행합니다.
python profiling-recipe/profiles/profiling_pipeline.py --config config_files/ ${CONFIG_FILE} .yml
구성 파일이 여러 개인 경우 위 명령을 사용하여 각 파일을 차례로 실행할 수 있습니다.
참고: 프로파일링 파이프라인의 각 단계에서는 이전 단계의 출력을 입력으로 사용합니다. 따라서 프로파일링 파이프라인의 단계를 실행하기 전에 필요한 모든 입력 파일이 생성되었는지 확인하십시오. 구성 파일에 해당 단계만 유지하여 파이프라인에서 몇 가지 단계만 실행할 수 있습니다.
데이터 저장소를 사용하는 경우 새로 생성된 프로필을 DVC에 푸시하고 .dvc 파일 및 기타 파일을 GitHub에 푸시하십시오.
dvc add profiles/ ${BATCH} --recursive
dvc push
git add profiles/ ${BATCH} / * / * .dvc profiles/ ${BATCH} / * / * .gitignore
git commit -m ' add profiles '
git add *
git commit -m ' add files made in profiling '
git push
DVC를 사용하지 않고 데이터 저장소를 사용하는 경우 다음과 같이 모든 새 파일을 GitHub에 푸시하세요.
git add *
git commit -m ' add profiles '
git push
모든 단계가 포함된 프로파일링 워크플로를 실행하면 다음 파일이 생성됩니다.
파일 이름 | 설명 | 위치 |
---|---|---|
<PLATE>.csv.gz | 집계된 웰 수준 프로필 | 프로필/배치/플레이트 |
<PLATE>_augmented.csv.gz | 메타데이터 주석이 달린 프로필 | 프로필/배치/플레이트 |
<PLATE>_normalized.csv.gz | 전체 플레이트에 대해 정규화된 프로파일 | 프로필/배치/플레이트 |
<PLATE>_normalized_negcon.csv.gz | 음성 대조군으로 정규화된 프로필 | 프로필/배치/플레이트 |
<PLATE>_normalized_feature_select_<LEVEL>.csv.gz | plate , batch 또는 all plates 수준에서 선택된 기능인 전체 플레이트 표준화 프로파일 | 프로필/배치/플레이트 |
<PLATE>_normalized_feature_select_negcon_<LEVEL>.csv.gz | plate , batch 또는 all plates 수준에서 선택된 기능인 음성 대조 정규화 프로파일 | 프로필/배치/플레이트 |
<BATCH>_normalized_feature_select_<LEVEL>.csv.gz | batch 수준 또는 all plates 수준에서 선택된 기능인 배치 수준 스택 전체 플레이트 정규화 프로파일 | GCT/배치 |
<BATCH>_normalized_feature_select_<LEVEL>.gct | <BATCH>_normalized_feature_select_<LEVEL>.csv.gz 파일에서 생성된 .gct 파일 | GCT/배치 |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | batch 수준 또는 all plates 수준에서 선택된 기능인 배치 수준 누적 음성 대조 정규화 프로파일 | GCT/배치 |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.gct | <BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz 파일에서 생성된 .gct 파일 | GCT/배치 |
summary.tsv | 요약 통계 | 품질 관리/요약 |
<PLATE>_cell_count.png | 플레이트 셀 수 | 품질 관리/히트맵/배치/플레이트 |
<PLATE>_correlation.png | 플레이트의 모든 웰 간의 쌍 상관 관계 | 품질 관리/히트맵/배치/플레이트 |
<PLATE>_position_effect.png | 동일한 행과 열에 있는 각 웰과 다른 웰 간의 백분율 일치 | 품질 관리/히트맵/배치/플레이트 |
모든 파이프라인에 필요한 매개변수는 다음과 같습니다.
파이프라인 이름은 다양한 구성 파일을 구별하는 데 도움이 됩니다. 파이프라인 자체에서는 사용되지 않습니다.
pipeline : <PIPELINE NAME>
프로필이 저장될 디렉터리의 이름입니다. 기본적으로 profiles
입니다.
output_dir : profiles
aggregated
프로필의 우물 이름 열 이름입니다. 기본적으로 Metadata_well_position
입니다.
platemap_well_column : Metadata_well_position
기본적으로 CellProfiler 기능은 세 개의 구획( cells
, cytoplasm
및 nuclei
에서 추출됩니다. 이러한 구획은 다음과 같이 구성 파일에 나열됩니다.
compartments :
- cells
- cytoplasm
- nuclei
다른 '비정규' 구획이 데이터세트에 있는 경우 해당 구획은 다음과 같이 위 목록에 추가됩니다.
compartments :
- cells
- cytoplasm
- nuclei
- newcompartment
참고: 비정규 구획의 이름이 newcompartment
인 경우 해당 구획의 기능은 Newcompartment
로 시작해야 합니다(첫 번째 문자만 대문자로 시작해야 함). 기능 이름에 카멜 표기법이나 다른 형식을 사용하면 파이프라인이 실패합니다.
options :
compression : gzip
float_format : " %.5g "
samples : all
compression
- 프로필 .csv
의 압축 형식입니다. 기본값은 현재 유일하게 허용되는 값인 gzip
입니다.float_format
- 유효 자릿수입니다.samples
- 샘플 전체 또는 일부에 대해 다음 작업을 수행할지 여부입니다. 기본값은 현재 유일하게 허용되는 값인 all
입니다. aggregate
변수 이는 pycytominer.cyto_utils.cells.SingleCells()
와 상호 작용하고 단일 셀 프로필을 집계하여 웰 수준 프로필을 생성하는 pipeline_aggregate()
함수에 의해 처리되는 매개 변수입니다.
aggregate :
perform : true
plate_column : Metadata_Plate
well_column : Metadata_Well
method : median
fields : all
perform
- 집계를 수행할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.plate_column
- 플레이트 이름이 포함된 열 이름입니다. 기본값은 Metadata_Plate
입니다.well_column
- 우물 이름이 포함된 열의 이름입니다. 기본값은 Metadata_Well
입니다.method
- 집계를 수행하는 방법입니다. 기본값은 median
입니다. 또한 mean
허용합니다.fields
- 시야각을 집계해야 하는 셀인가요? 기본값은 all
입니다. 특정 시야를 집계하려는 경우(예: 1, 4, 9) 다음과 같이 수행할 수 있습니다. fields :
- 1
- 4
- 9
또한 전체 이미지 기능을 프로필에 추가하려면 image_feature_categories
매개변수에 기능 카테고리를 나열하세요. 예를 들어
image_feature_catageories :
- Count
- Intensity
annotate
이는 pycytominer.annotate()
와 상호 작용하고 웰 수준 프로필에 메타데이터로 주석을 추가하는 pipeline_annotate()
함수에 의해 처리되는 매개변수입니다.
annotate :
perform : true
well_column : Metadata_Well
external :
perform : true
file : <metadata file name>
merge_column : <Column to merge on>
perform
- 주석을 수행할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.well_column
- 집계된 프로필에 우물 이름이 포함된 열입니다.external
perform
- 외부 메타데이터로 프로필에 주석을 추가할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.file
- metadata/external_metadata/
폴더에 있어야 하는 외부 메타데이터 파일입니다.merge_column
- platemap.txt
및 external_metadata.tsv
에 공통된 섭동 식별자 열의 이름입니다. normalize
이는 pycytominer.normalize()
와 상호 작용하고 모든 웰을 전체 플레이트로 정규화하는 pipeline_normalize()
함수에 의해 처리되는 매개변수입니다.
normalize :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- 정규화를 수행할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.method
- 정규화에 사용할 방법입니다. 기본값은 mad_robustize
입니다. 파이사이토마이너에서는 standardize
, robustize
, spherize
등의 다른 옵션을 사용할 수 있습니다.features
- 기능 측정 열의 이름입니다. 기본값은 infer
이며 주석이 달린 프로필에서 CellProfiler 기능을 추론합니다.mad_robustize_fudge_factor
- 정규화 방법이 mad_robustize
인 경우 퍼지 계수 매개변수입니다.image_features
: 주석이 달린 프로필에 전체 이미지 기능이 있는지 여부입니다. 기본값은 true
입니다. 이미지 기능이 없으면 false
로 설정합니다.normalize_negcon
매개변수 이는 pycytominer.normalize()
와 상호 작용하고 모든 웰을 음성 대조군으로 정규화하는 pipeline_normalize()
함수에 의해 처리되는 매개변수입니다.
normalize_negcon :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- 정규화를 수행할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.method
- 정규화에 사용할 방법입니다. 기본값은 mad_robustize
입니다. 파이사이토마이너에서는 standardize
, robustize
, spherize
등의 다른 옵션을 사용할 수 있습니다.features
- 기능 측정 열의 이름입니다. 기본값은 infer
이며 주석이 달린 프로필에서 CellProfiler 기능을 추론합니다.mad_robustize_fudge_factor
- 정규화 방법이 mad_robustize
인 경우 퍼지 계수 매개변수입니다.image_features
: 주석이 달린 프로필에 전체 이미지 기능이 있는지 여부입니다. 기본값은 true
입니다. 이미지 기능이 없으면 false
로 설정합니다. feature_select
매개변수 이는 pycytominer.feature_select()
와 상호작용하고 전체 플레이트 정규화된 프로필에서 기능을 선택하는 pipeline_feature_select()
함수에 의해 처리되는 매개변수입니다.
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- 기능 선택을 수행할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.features
- 기능 측정 열의 이름입니다. 기본값은 infer
이며 정규화된 프로필에서 CellProfiler 기능을 추론합니다.level
- 기능 선택을 수행해야 하는 수준입니다. 기본값은 batch
입니다. 기능 선택은 batch
및 all
플레이트 수준에서도 수행할 수 있습니다.gct
- 배치 수준 스택 프로필 및 .gct
파일을 생성할지 여부입니다. 기본값은 false
입니다. 스택 프로필과 .gct
파일은 level
이 batch
또는 all
인 경우에만 생성됩니다.image_features
: 전체 이미지 특징이 전체 플레이트 정규화 프로파일에 존재하는지 여부입니다. 기본값은 true
입니다. 이미지 기능이 없으면 false
로 설정합니다.operations
- 기능 선택 작업 목록입니다. variance_threshold
플레이트의 모든 웰에서 임계값 미만의 분산이 있는 기능을 제거합니다. correlation_threshold
중복 기능을 제거합니다. drop_na_columns
NaN
값이 있는 기능을 제거합니다. blocklist
기능 차단 목록의 일부인 기능을 제거합니다.feature_select_negcon
매개변수 이는 pycytominer.feature_select()
와 상호 작용하고 음성 컨트롤로 정규화된 프로필의 기능을 선택하는 pipeline_feature_select()
함수에 의해 처리되는 매개 변수입니다.
feature_select_negcon :
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- 기능 선택을 수행할지 여부입니다. 기본값은 true
입니다. 이를 수행하지 않으려면 false
로 설정하십시오.features
- 기능 측정 열의 이름입니다. 기본값은 infer
이며 정규화된 프로필에서 CellProfiler 기능을 추론합니다.level
- 기능 선택을 수행해야 하는 수준입니다. 기본값은 batch
입니다. 기능 선택은 batch
및 all
플레이트 수준에서도 수행할 수 있습니다.gct
- 배치 수준 스택 프로필 및 .gct
파일을 생성할지 여부입니다. 기본값은 false
입니다. 스택 프로필과 .gct
파일은 level
이 batch
또는 all
인 경우에만 생성됩니다.image_features
: negcon 정규화된 프로필에 전체 이미지 기능이 있는지 여부입니다. 기본값은 true
입니다. 이미지 기능이 없으면 false
로 설정합니다.operations
- 기능 선택 작업 목록입니다. variance_threshold
플레이트의 모든 웰에서 임계값 미만의 분산이 있는 특징을 제거합니다. correlation_threshold
중복 기능을 제거합니다. drop_na_columns
NaN
값이 있는 기능을 제거합니다. blocklist
기능 차단 목록의 일부인 기능을 제거합니다. quality_control
매개변수 이러한 매개변수는 생성할 품질 관리 지표 및 수치의 유형을 지정합니다. summary
요약 통계가 포함된 테이블을 생성하는 반면, heatmap
서로 다른 품질 관리 지표를 표시하는 3개의 히트맵을 생성합니다.
quality_control :
perform : true
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
heatmap :
perform : true
perform
- 품질 관리 지표 또는 수치를 생성할지 여부입니다. 기본값은 true
입니다. 생성하지 않으려면 false
로 설정하세요. 생성할 수 있는 qc 지표에는 두 가지 유형이 있습니다. summary
각 배치의 각 플레이트에 대한 요약 통계가 포함된 summary.tsv
생성합니다. heatmap
셀 수 대 플레이트맵, 웰과 위치 효과 대 플레이트맵 간의 상관관계 등 세 가지 히트맵을 생성합니다.
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
perform
- 요약 파일을 생성할지 여부입니다. 기본값은 true
입니다. 이 파일을 생성하지 않으려면 false
로 설정하십시오.row
- load_data.csv
의 행 이름 필드입니다.column
- 열 이름 필드 load_data.csv
. heatmap :
perform : true
perform
- 히트맵을 생성할지 여부입니다. 기본값은 true
입니다. 히트맵을 생성하지 않으려면 false
로 설정하세요. batch
및 plates
매개변수이러한 매개변수는 처리할 배치 및 플레이트의 이름을 지정합니다.
batch : <BATCH NAME>
plates :
- name : <PLATE NAME>
process : true
process : true
batch
- 처리할 배치의 이름입니다.plates
-name
- 처리할 플레이트의 이름입니다.process
- 플레이트를 처리할지 여부입니다. 기본값은 true
입니다. 이 플레이트를 처리하지 않으려면 false
로 설정하세요.process
- 배치를 처리할지 여부입니다. 기본값은 true
입니다. 이 일괄 처리를 처리하지 않으려면 false
로 설정하세요.git submodule update --init --recursive
dvc pull
유용할 수 있는 DVC 사용에 대한 추가 정보:
대용량 파일이나 폴더를 처리할 때 git add
사용하여 GH에 추가하지 마세요. 대신 dvc add
사용하여 DVC에 추가하세요. 그러면 대용량 파일/폴더가 S3에 업로드되고 GH 저장소(파일/폴더 자체 대신 추적함)의 S3에 해당 업로드에 대한 포인터가 생성됩니다. 또한 GH가 대용량 파일/폴더 자체를 추적하지 않도록 .gitignore를 업데이트합니다. 그런 다음 dvc push
통해 파일을 S3에 업로드합니다.
# Add a file or folder to DVC
dvc add LARGEFILE.csv
dvc push
그런 다음 .gitignore와 함께 github에 생성된 파일/폴더의 .dvc 버전을 추가합니다. 저지르다.
git add LARGEFILE.csv.dvc
git add .gitignore
git commit -m " add largefile "
# Download ALL data stored by DVC in S3
# Only do this if you really, truly want ALL the data
dvc pull
# Download a specific file stored by DVC in S3
dvc get https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv
DVC는 S3에서 파일 이름을 해시로 만듭니다. 특정 DVC 파일에 대한 파일 해시를 보려면(S3에서 직접 찾을 수 있도록) get
명령에 --show-url 플래그를 추가합니다.
dvc get --show-url https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv