สูตรการทำโปรไฟล์คือชุดของสคริปต์ที่ใช้ฟังก์ชันไพไซโตมิเนอร์เป็นหลักในการประมวลผลโปรไฟล์ทางสัณฐานวิทยาเซลล์เดียว สคริปต์ทั้งสามคือ
profiling-pipeline.py
- รันไปป์ไลน์การประมวลผลโปรไฟล์ตามรูปภาพcsv2gz.py
- บีบอัดไฟล์ .csv
create_dirs.sh
- สร้างไดเร็กทอรีย่อยเพื่อจัดเก็บเอาต์พุตของไปป์ไลน์การประมวลผลเราใช้ Anaconda เป็นตัวจัดการแพ็คเกจของเรา ติดตั้ง Miniconda ตามคำแนะนำที่นี่
เราใช้พื้นที่จัดเก็บ AWS S3 ที่ติดตามโดย DVC เพื่อการจัดการไฟล์ขนาดใหญ่ ติดตั้ง AWS CLI โดยทำตามคำแนะนำที่นี่ หลังการติดตั้ง ให้กำหนดค่าการติดตั้ง AWS CLI ของคุณด้วย
aws configure
มันจะแจ้งให้คุณทราบ:
AWS Access Key ID:
YOUR-KEY
AWS Secret Access Key:
รหัสลับของคุณ
Default region name:
เช่น us-east-1
Default output format:
json
โปรดทราบว่าโปรไฟล์ที่คุณป้อนต้องมีสิทธิ์ในการอัปโหลดไปยังบัคเก็ตที่คุณตั้งค่าไว้ในภายหลัง
หากคุณไม่ต้องการจัดเก็บ/สร้างเวอร์ชันไฟล์ขนาดใหญ่บน AWS คุณสามารถข้ามการติดตั้ง AWS CLI ได้
หากใช้ไปป์ไลน์การทำโปรไฟล์เพื่อรวมโปรไฟล์เซลล์เดียว เราขอแนะนำให้ใช้งานไปป์ไลน์บนระบบที่มีหน่วยความจำอย่างน้อยสองเท่าของขนาดไฟล์ . .sqlite
หากใช้ไปป์ไลน์สำหรับการรันขั้นตอนที่อยู่ดาวน์สตรีมของการรวมเท่านั้น ก็สามารถรันบนเครื่องโลคัลได้
ไปป์ไลน์ต้องการโครงสร้างโฟลเดอร์เฉพาะซึ่งสามารถสร้างได้ดังต่อไปนี้
PROJECT_NAME= " INSERT-PROJECT-NAME "
mkdir -p ~ /work/projects/ ${PROJECT_NAME} /workspace/{backend,software}
ดาวน์โหลดไฟล์ .sqlite
ซึ่งมีโปรไฟล์เซลล์เดียวและไฟล์ .csv
ซึ่งมีโปรไฟล์รวมระดับดี สำหรับเพลตทั้งหมดในแต่ละชุดไปยังโฟลเดอร์ backend
ไฟล์ทั้งสองนี้ถูกสร้างขึ้นโดยการรันคำสั่งในบทที่ 5.3 ของคู่มือการทำโปรไฟล์ หลังจากดาวน์โหลดไฟล์แล้ว โครงสร้างโฟลเดอร์ควรมีลักษณะดังนี้
backend
├── batch1
│ ├── plate1
│ │ ├── plate1.csv
│ │ └── plate1.sqlite
│ └── plate2
│ ├── plate2.csv
│ └── plate2.sqlite
└── batch2
├── plate1
│ ├── plate1.csv
│ └── plate1.sqlite
└── plate2
├── plate2.csv
└── plate2.sqlite
หมายเหตุ: การรวมอาจยังไม่ได้ดำเนินการ ในกรณีดังกล่าว จะสามารถดาวน์โหลดได้เฉพาะไฟล์ .sqlite
เท่านั้น
การเชื่อมเป็นกระบวนการที่เพิ่มพื้นที่เก็บข้อมูลสูตรการทำโปรไฟล์ไปยังที่เก็บข้อมูลเป็นโมดูลย่อย ดังนั้นไฟล์ในที่เก็บข้อมูลและสคริปต์ในสูตรการทำโปรไฟล์ที่สร้างไฟล์เหล่านั้น จะได้รับเวอร์ชันร่วมกัน คำแนะนำในการเชื่อมมีอยู่ที่นี่ เราขอแนะนำอย่างยิ่งให้เชื่อมสูตรการทำโปรไฟล์กับที่เก็บข้อมูล หลังจากการเชื่อมแล้ว ให้โคลนที่เก็บข้อมูลไปยังโฟลเดอร์ software
โดยใช้คำสั่ง
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software
git clone < location of the data repository > .git
cd < name of the data repository >
git submodule update --init --recursive
หลังจากการโคลน โครงสร้างโฟลเดอร์ควรมีลักษณะดังนี้
software
└── data_repo
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
เป็นไปได้ที่จะรันไปป์ไลน์โดยไม่ต้องเชื่อมที่เก็บโปรไฟล์สูตรกับที่เก็บข้อมูล หากรันในลักษณะนี้ พื้นที่เก็บข้อมูล profiling-recipe ควรถูกโคลนไปยังไดเร็กทอรีข้อมูลเป็นไดเร็กทอรีย่อย จากนั้นโครงสร้างโฟลเดอร์จะมีลักษณะดังนี้
software
└── data_directory
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
การสร้างตารางสถิติสรุปต้องใช้ไฟล์ load_data_csv
ควรดาวน์โหลดไฟล์เหล่านี้ไปยังไดเร็กทอรี load_data_csv
ตรวจสอบให้แน่ใจว่าไฟล์เป็น gzip และโครงสร้างโฟลเดอร์มีลักษณะดังนี้
load_data_csv/
├── batch1
│ ├── plate1
│ │ ├── load_data.csv.gz
│ │ └── load_data_with_illum.csv.gz
│ └── plate2
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── batch2
├── plate1
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── plate2
├── load_data.csv.gz
└── load_data_with_illum.csv.gz
ไปป์ไลน์ควรรันจากที่เก็บข้อมูลหรือไดเร็กทอรีข้อมูล
DATA= " INSERT-NAME-OF-DATA-REPO-OR-DIR "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
ไฟล์ Environmental.yml มีรายการแพ็กเกจ conda ที่จำเป็นสำหรับการรันไปป์ไลน์
cp profiling-recipe/environment.yml .
conda env create --force --file environment.yml
conda activate profiling
เริ่มต้น DVC สำหรับโปรเจ็กต์นี้และตั้งค่าให้จัดเก็บไฟล์ขนาดใหญ่ใน S3 ข้ามขั้นตอนนี้หากไม่ได้ใช้ DVC หากคุณต้องการใช้ DVC สำหรับตำแหน่งพื้นที่จัดเก็บข้อมูลระยะไกลที่ไม่ใช่ S3 โปรดดูคำแนะนำที่นี่ หากคุณมีโปรไฟล์ AWS หลายโปรไฟล์บนเครื่องของคุณและไม่ต้องการใช้โปรไฟล์เริ่มต้นสำหรับ DVC คุณสามารถระบุโปรไฟล์ที่จะใช้ได้โดยการเรียกใช้ dvc remote modify S3storage profile PROFILE_NAME
ที่จุดใดก็ได้ระหว่างการเพิ่มรีโมทและดำเนินการพุช DVC สุดท้าย
# Navigate
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ < data_repo >
# Initialize DVC
dvc init
# Set up remote storage
dvc remote add -d S3storage s3:// < bucket > /projects/ ${PROJECT_NAME} /workspace/software/ < data_repo > _DVC
# Commit new files to git
git add .dvc/.gitignore .dvc/config
git commit -m " Setup DVC "
ไดเร็กทอรีที่จะมีเอาต์พุตของไปป์ไลน์จะถูกสร้างขึ้นดังนี้
profiling-recipe/scripts/create_dirs.sh
ไปป์ไลน์ต้องใช้ barcode_platemap.csv
และ platemap.txt
เพื่อทำงาน external_metadata.tsv
ที่เป็นทางเลือกสามารถจัดเตรียมไว้สำหรับคำอธิบายประกอบเพิ่มเติมได้ ต่อไปนี้เป็นคำอธิบายของแต่ละไฟล์เหล่านี้
barcode_platemap.csv
- มีการแมประหว่างเพลทและแผนที่เพลท มีไฟล์ดังกล่าวหนึ่งไฟล์ต่อชุดข้อมูล ไฟล์ประกอบด้วยสองคอลัมน์ที่มีชื่อคือ Assay_Plate_Barcode
และ Plate_Map_Name
ซึ่งไม่ควรเปลี่ยนแปลง ไม่ควรเปลี่ยนชื่อไฟล์เช่นกัน ไฟล์นี้ควรเป็นไฟล์ .csv
ที่คั่นด้วยเครื่องหมายจุลภาคplatemap.txt
- มีการแมประหว่างชื่อหลุมและชื่อการก่อกวน มีไฟล์ดังกล่าวหนึ่งไฟล์ต่อเพลทแมปต่อแบตช์ จำเป็นต้องมีสองคอลัมน์ โดยคอลัมน์หนึ่งมีชื่อหลุม ( A01
, A02
...) เรียกว่า well_position
และอีกคอลัมน์หนึ่งมีตัวระบุการก่อกวน ผู้ใช้สามารถกำหนดชื่อของคอลัมน์ตัวระบุการก่อกวนได้ (หากมีการเปลี่ยนแปลง ให้เปลี่ยนชื่อในไฟล์ config.yml
) ชื่อของไฟล์นี้สามารถเปลี่ยนแปลงได้ หากมีการเปลี่ยนแปลง ให้เปลี่ยนชื่อภายใน barcode_platemap.csv
ด้วย ไฟล์นี้ควรเป็นไฟล์ .txt
ที่คั่นด้วยแท็บexternal_metadata.tsv
- มีการแมประหว่างตัวระบุการก่อกวนกับข้อมูลเมตาอื่น ๆ ไฟล์นี้เป็นทางเลือก คอลัมน์ตัวระบุการก่อกวนควรมีชื่อเดียวกันกับคอลัมน์ใน platemap.txt
ไฟล์นี้ควรเป็นไฟล์ .tsv
ที่คั่นด้วยแท็บ ต่อไปนี้เป็นตัวอย่างของไฟล์ barcode_platemap.csv
Assay_Plate_Barcode,Plate_Map_Name
plate1,platemap
plate2,platemap
นี่คือตัวอย่างไฟล์แผนผังจาน และนี่คือตัวอย่างไฟล์ข้อมูลเมตาภายนอก
ควรเพิ่มไฟล์เหล่านี้ลงในโฟลเดอร์ที่เหมาะสมเพื่อให้โครงสร้างโฟลเดอร์มีลักษณะดังนี้
metadata
├── external_metadata
│ └── external_metadata.tsv
└── platemaps
├── batch1
│ ├── barcode_platemap.csv
│ └── platemap
│ └── platemap.txt
└── batch2
├── barcode_platemap.csv
└── platemap
└── platemap.txt
CONFIG_FILE= " INSERT-CONFIG-FILE-NAME "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
cp profiling-recipe/config_template.yml config_files/ ${CONFIG_FILE} .yml
ไฟล์กำหนดค่าประกอบด้วยพารามิเตอร์ทั้งหมดที่ฟังก์ชัน pycytominer ต่างๆ เรียกใช้โดยไปป์ไลน์การทำโปรไฟล์ต้องการ หากต้องการรันไปป์ไลน์การทำโปรไฟล์ด้วยพารามิเตอร์ที่แตกต่างกัน คุณสามารถสร้างไฟล์กำหนดค่าได้หลายไฟล์ พารามิเตอร์แต่ละรายการในไฟล์กำหนดค่ามีคำอธิบายอยู่ด้านล่างนี้ ต้องทำการเปลี่ยนแปลงที่จำเป็นทั้งหมดในไฟล์กำหนดค่าก่อนจึงจะสามารถรันไปป์ไลน์ได้
หากขั้นตอนแรกของไปป์ไลน์การทำโปรไฟล์ aggregate
ได้ดำเนินการไปแล้ว (ในโฟลเดอร์ backend
มีไฟล์ .csv
นอกเหนือจากไฟล์ .sqlite
) จะต้องคัดลอกไฟล์ .csv
ไปยังที่เก็บข้อมูลหรือไดเร็กทอรีข้อมูล . ถ้าไม่ ให้ข้ามไปที่การรันไปป์ไลน์การทำโปรไฟล์
รันคำสั่งต่อไปนี้สำหรับแต่ละแบตช์แยกกัน คำสั่งเหล่านี้จะสร้างโฟลเดอร์สำหรับแต่ละชุด บีบอัดไฟล์ .csv
จากนั้นคัดลอกไฟล์ไปยังที่เก็บข้อมูลหรือไดเร็กทอรีข้อมูล
BATCH= " INSERT-BATCH-NAME "
mkdir -p profiles/ ${BATCH}
find ../../backend/ ${BATCH} / -type f -name " *.csv " -exec profiling-recipe/scripts/csv2gz.py {} ;
rsync -arzv --include= " */ " --include= " *.gz " --exclude " * " ../../backend/ ${BATCH} / profiles/ ${BATCH} /
หลังจากทำการเปลี่ยนแปลงที่จำเป็นกับไฟล์ config.yml
แล้ว ให้รันไปป์ไลน์การทำโปรไฟล์ดังนี้
python profiling-recipe/profiles/profiling_pipeline.py --config config_files/ ${CONFIG_FILE} .yml
หากมีไฟล์กำหนดค่าหลายไฟล์ แต่ละไฟล์สามารถเรียกใช้ทีละไฟล์ได้โดยใช้คำสั่งด้านบน
หมายเหตุ: แต่ละขั้นตอนในไปป์ไลน์การทำโปรไฟล์ จะใช้เอาต์พุตจากขั้นตอนก่อนหน้าเป็นอินพุต ดังนั้น ตรวจสอบให้แน่ใจว่าไฟล์อินพุตที่จำเป็นทั้งหมดได้ถูกสร้างขึ้นก่อนที่จะรันขั้นตอนในไปป์ไลน์การทำโปรไฟล์ คุณสามารถรันเพียงไม่กี่ขั้นตอนในไปป์ไลน์โดยเก็บเฉพาะขั้นตอนเหล่านั้นไว้ในไฟล์กำหนดค่า
หากใช้ที่เก็บข้อมูล ให้พุชโปรไฟล์ที่สร้างขึ้นใหม่ไปที่ DVC และไฟล์ .dvc และไฟล์อื่นๆ ไปที่ GitHub ดังนี้
dvc add profiles/ ${BATCH} --recursive
dvc push
git add profiles/ ${BATCH} / * / * .dvc profiles/ ${BATCH} / * / * .gitignore
git commit -m ' add profiles '
git add *
git commit -m ' add files made in profiling '
git push
หากไม่ได้ใช้ DVC แต่ใช้พื้นที่เก็บข้อมูล ให้พุชไฟล์ใหม่ทั้งหมดไปที่ GitHub ดังนี้
git add *
git commit -m ' add profiles '
git push
การรันเวิร์กโฟลว์การทำโปรไฟล์ด้วยขั้นตอนทั้งหมดที่รวมไว้จะสร้างไฟล์ต่อไปนี้
ชื่อไฟล์ | คำอธิบาย | ที่ตั้ง |
---|---|---|
<PLATE>.csv.gz | โปรไฟล์ระดับดีที่รวบรวมไว้ | โปรไฟล์/ชุด/จาน |
<PLATE>_augmented.csv.gz | โปรไฟล์ที่มีคำอธิบายประกอบข้อมูลเมตา | โปรไฟล์/ชุด/จาน |
<PLATE>_normalized.csv.gz | โปรไฟล์ถูกทำให้เป็นมาตรฐานทั้งแผ่น | โปรไฟล์/ชุด/จาน |
<PLATE>_normalized_negcon.csv.gz | โปรไฟล์ถูกทำให้เป็นมาตรฐานไปยังการควบคุมเชิงลบ | โปรไฟล์/ชุด/จาน |
<PLATE>_normalized_feature_select_<LEVEL>.csv.gz | โปรไฟล์ที่ทำให้เป็นมาตรฐานทั้งแผ่นซึ่งมีคุณสมบัติที่เลือกไว้ที่ระดับ plate batch หรือ all plates | โปรไฟล์/ชุด/จาน |
<PLATE>_normalized_feature_select_negcon_<LEVEL>.csv.gz | โปรไฟล์ที่ทำให้เป็นมาตรฐานของการควบคุมเชิงลบซึ่งคุณสมบัติที่เลือกไว้ที่ระดับ plate batch หรือ all plates | โปรไฟล์/ชุด/จาน |
<BATCH>_normalized_feature_select_<LEVEL>.csv.gz | โปรไฟล์ที่ปรับมาตรฐานทั้งเพลตแบบเรียงซ้อนในระดับแบทช์ซึ่งมีคุณลักษณะที่เลือกไว้ที่ระดับ batch หรือระดับ all plates | gct/แบทช์ |
<BATCH>_normalized_feature_select_<LEVEL>.gct | ไฟล์ .gct ที่สร้างจากไฟล์ <BATCH>_normalized_feature_select_<LEVEL>.csv.gz | gct/แบทช์ |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | โปรไฟล์ที่ปรับให้เป็นมาตรฐานของการควบคุมเชิงลบแบบซ้อนในระดับแบทช์ซึ่งมีคุณลักษณะที่เลือกไว้ที่ระดับ batch หรือ all plates | gct/แบทช์ |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.gct | ไฟล์ .gct ที่สร้างจากไฟล์ <BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | gct/แบทช์ |
summary.tsv | สถิติสรุป | quality_control/สรุป |
<PLATE>_cell_count.png | การนับเซลล์เพลต | quality_control/แผนที่ความร้อน/ชุด/แผ่น |
<PLATE>_correlation.png | ความสัมพันธ์แบบคู่ระหว่างหลุมทั้งหมดบนจาน | quality_control/แผนที่ความร้อน/ชุด/แผ่น |
<PLATE>_position_effect.png | เปอร์เซ็นต์การจับคู่ระหว่างแต่ละหลุมและหลุมอื่นๆ ในแถวและคอลัมน์เดียวกัน | quality_control/แผนที่ความร้อน/ชุด/แผ่น |
นี่คือพารามิเตอร์ที่ไปป์ไลน์ทั้งหมดต้องการ
ชื่อของไปป์ไลน์ช่วยแยกแยะไฟล์การกำหนดค่าต่างๆ ไปป์ไลน์ไม่ได้ใช้มันเอง
pipeline : <PIPELINE NAME>
ชื่อของไดเร็กทอรีที่จะจัดเก็บโปรไฟล์ มันเป็น profiles
โดยค่าเริ่มต้น
output_dir : profiles
ชื่อของคอลัมน์ชื่อหลุมในโปรไฟล์ aggregated
เป็น Metadata_well_position
โดยค่าเริ่มต้น
platemap_well_column : Metadata_well_position
ตามค่าเริ่มต้น คุณสมบัติ CellProfiler จะถูกแยกออกมาจากสามส่วน ได้แก่ cells
cytoplasm
และ nuclei
ช่องเหล่านี้แสดงอยู่ในไฟล์ปรับแต่งดังนี้
compartments :
- cells
- cytoplasm
- nuclei
หากมีช่อง 'ที่ไม่เป็นที่ยอมรับ' อื่นๆ อยู่ในชุดข้อมูล ช่องเหล่านั้นจะถูกเพิ่มลงในรายการด้านบนดังต่อไปนี้
compartments :
- cells
- cytoplasm
- nuclei
- newcompartment
หมายเหตุ: หากชื่อของช่องที่ไม่เป็นที่ยอมรับคือ newcompartment
คุณลักษณะจากช่องนั้นควรขึ้นต้นด้วย Newcompartment
(เฉพาะอักขระตัวแรกเท่านั้นที่ควรใช้ตัวพิมพ์ใหญ่) ไปป์ไลน์จะล้มเหลวหากใช้ตัวพิมพ์เล็กหรือรูปแบบอื่นสำหรับชื่อคุณลักษณะ
options :
compression : gzip
float_format : " %.5g "
samples : all
compression
- รูปแบบการบีบอัดสำหรับโปรไฟล์ .csv
s ค่าเริ่มต้นคือ gzip
ซึ่งเป็นค่าเดียวที่ยอมรับในปัจจุบันfloat_format
- จำนวนหลักที่มีนัยสำคัญsamples
- จะดำเนินการต่อไปนี้กับตัวอย่างทั้งหมดหรือชุดย่อยหรือไม่ ค่าเริ่มต้นคือ all
ซึ่งเป็นค่าเดียวที่ยอมรับในปัจจุบัน aggregate
พารามิเตอร์เหล่านี้เป็นพารามิเตอร์ที่ประมวลผลโดยฟังก์ชัน pipeline_aggregate()
ที่โต้ตอบกับ pycytominer.cyto_utils.cells.SingleCells()
และรวมโปรไฟล์เซลล์เดียวเพื่อสร้างโปรไฟล์ระดับดี
aggregate :
perform : true
plate_column : Metadata_Plate
well_column : Metadata_Well
method : median
fields : all
perform
- จะดำเนินการรวมหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการplate_column
- ชื่อของคอลัมน์พร้อมชื่อเพลท ค่าเริ่มต้นคือ Metadata_Plate
well_column
- ชื่อของคอลัมน์ที่มีชื่อหลุม ค่าเริ่มต้นคือ Metadata_Well
method
- วิธีการดำเนินการรวมกลุ่ม ค่าเริ่มต้นคือ median
ยังยอมรับ mean
fields
- เซลล์จากมุมมองใดที่ควรรวมเข้าด้วยกัน? ค่าเริ่มต้นคือ all
หากต้องการรวมมุมมองเฉพาะ (เช่น 1, 4, 9) สามารถทำได้ดังนี้ fields :
- 1
- 4
- 9
นอกจากนี้ หากต้องการเพิ่มคุณลักษณะรูปภาพทั้งหมดให้กับโปรไฟล์ ให้แสดงรายการหมวดหมู่คุณลักษณะลงในพารามิเตอร์ image_feature_categories
ตัวอย่างเช่น
image_feature_catageories :
- Count
- Intensity
annotate
พารามิเตอร์เหล่านี้เป็นพารามิเตอร์ที่ประมวลผลโดยฟังก์ชัน pipeline_annotate()
ที่โต้ตอบกับ pycytominer.annotate()
และใส่คำอธิบายประกอบโปรไฟล์ระดับหลุมด้วยข้อมูลเมตา
annotate :
perform : true
well_column : Metadata_Well
external :
perform : true
file : <metadata file name>
merge_column : <Column to merge on>
perform
- จะดำเนินการคำอธิบายประกอบหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการwell_column
- คอลัมน์ที่มีชื่อหลุมในโปรไฟล์รวมexternal
perform
- ว่าจะใส่คำอธิบายประกอบโปรไฟล์ด้วยข้อมูลเมตาภายนอกหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการfile
- ไฟล์ข้อมูลเมตาภายนอกซึ่งควรอยู่ในโฟลเดอร์ metadata/external_metadata/
merge_column
- ชื่อของคอลัมน์ตัวระบุการก่อกวนที่ใช้ร่วมกับ platemap.txt
และ external_metadata.tsv
normalize
พารามิเตอร์เหล่านี้คือพารามิเตอร์ที่ประมวลผลโดยฟังก์ชัน pipeline_normalize()
ที่โต้ตอบกับ pycytominer.normalize()
และทำให้หลุมทั้งหมดเป็นมาตรฐานทั้งเพลต
normalize :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- จะดำเนินการทำให้เป็นมาตรฐานหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการmethod
- วิธีใดที่จะใช้สำหรับการทำให้เป็นมาตรฐาน ค่าเริ่มต้นคือ mad_robustize
ตัวเลือกอื่นๆ มีอยู่ในไพไซโตมิเนอร์ เช่น standardize
robustize
และ spherize
features
- ชื่อของคอลัมน์การวัดคุณลักษณะ ค่าเริ่มต้นคือ infer
ซึ่งอนุมานคุณลักษณะ CellProfiler จากโปรไฟล์ที่มีคำอธิบายประกอบmad_robustize_fudge_factor
- พารามิเตอร์ปัจจัยฟัดจ์หากวิธีการทำให้เป็นมาตรฐานเป็น mad_robustize
image_features
: คุณลักษณะของรูปภาพทั้งหมดจะปรากฏในโปรไฟล์ที่มีคำอธิบายประกอบหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่มีคุณลักษณะรูปภาพnormalize_negcon
พารามิเตอร์เหล่านี้คือพารามิเตอร์ที่ประมวลผลโดยฟังก์ชัน pipeline_normalize()
ที่โต้ตอบกับ pycytominer.normalize()
และทำให้หลุมทั้งหมดเป็นมาตรฐานไปยังตัวควบคุมเชิงลบ
normalize_negcon :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- จะดำเนินการทำให้เป็นมาตรฐานหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการmethod
- วิธีใดที่จะใช้สำหรับการทำให้เป็นมาตรฐาน ค่าเริ่มต้นคือ mad_robustize
ตัวเลือกอื่นๆ มีอยู่ในไพไซโตมิเนอร์ เช่น standardize
robustize
และ spherize
features
- ชื่อของคอลัมน์การวัดคุณลักษณะ ค่าเริ่มต้นคือ infer
ซึ่งอนุมานคุณลักษณะ CellProfiler จากโปรไฟล์ที่มีคำอธิบายประกอบmad_robustize_fudge_factor
- พารามิเตอร์ปัจจัยฟัดจ์หากวิธีการทำให้เป็นมาตรฐานเป็น mad_robustize
image_features
: คุณลักษณะของรูปภาพทั้งหมดจะปรากฏในโปรไฟล์ที่มีคำอธิบายประกอบหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่มีคุณลักษณะรูปภาพ feature_select
พารามิเตอร์เหล่านี้คือพารามิเตอร์ที่ประมวลผลโดยฟังก์ชัน pipeline_feature_select()
ที่โต้ตอบกับ pycytominer.feature_select()
และเลือกคุณลักษณะในโปรไฟล์ที่ทำให้เป็นมาตรฐานทั้งเพลต
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- จะดำเนินการเลือกคุณสมบัติหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการfeatures
- ชื่อของคอลัมน์การวัดคุณลักษณะ ค่าเริ่มต้นคือ infer
ซึ่งอนุมานคุณลักษณะ CellProfiler จากโปรไฟล์ที่ทำให้เป็นมาตรฐานlevel
- ระดับที่ควรดำเนินการเลือกคุณสมบัติ ค่าเริ่มต้นคือ batch
การเลือกคุณสมบัติสามารถทำได้ในระดับ batch
และ all
ระดับเพลตgct
- จะสร้างโปรไฟล์แบบสแต็กระดับแบตช์และไฟล์ .gct
หรือไม่ ค่าเริ่มต้นเป็น false
โปรไฟล์แบบสแต็กและไฟล์ .gct
จะถูกสร้างขึ้นเฉพาะเมื่อ level
เป็น batch
หรือ all
image_features
: ไม่ว่าจะมีคุณลักษณะของรูปภาพทั้งหมดอยู่ในโปรไฟล์ที่ทำให้เป็นมาตรฐานทั้งแผ่นหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่มีคุณลักษณะรูปภาพoperations
- รายการการดำเนินการเลือกคุณลักษณะ variance_threshold
ลบคุณลักษณะที่มีความแปรปรวนภายใต้เกณฑ์ ทั่วทั้งหลุมบนเพลต correlation_threshold
ลบคุณลักษณะที่ซ้ำซ้อน drop_na_columns
ลบคุณลักษณะที่มีค่า NaN
blocklist
จะลบคุณสมบัติที่เป็นส่วนหนึ่งของรายการบล็อกคุณสมบัติfeature_select_negcon
พารามิเตอร์เหล่านี้คือพารามิเตอร์ที่ประมวลผลโดยฟังก์ชัน pipeline_feature_select()
ที่โต้ตอบกับ pycytominer.feature_select()
และเลือกฟีเจอร์ในโปรไฟล์ที่ทำให้เป็นมาตรฐานกับการควบคุมเชิงลบ
feature_select_negcon :
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- จะดำเนินการเลือกคุณสมบัติหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรดำเนินการfeatures
- ชื่อของคอลัมน์การวัดคุณลักษณะ ค่าเริ่มต้นคือ infer
ซึ่งอนุมานคุณลักษณะ CellProfiler จากโปรไฟล์ที่ทำให้เป็นมาตรฐานlevel
- ระดับที่ควรดำเนินการเลือกคุณสมบัติ ค่าเริ่มต้นคือ batch
การเลือกคุณสมบัติสามารถทำได้ในระดับ batch
และ all
ระดับเพลตgct
- จะสร้างโปรไฟล์แบบสแต็กระดับแบตช์และไฟล์ .gct
หรือไม่ ค่าเริ่มต้นเป็น false
โปรไฟล์แบบสแต็กและไฟล์ .gct
จะถูกสร้างขึ้นเฉพาะเมื่อ level
เป็น batch
หรือ all
image_features
: ไม่ว่าคุณลักษณะรูปภาพทั้งหมดจะมีอยู่ในโปรไฟล์ที่ทำให้เป็นมาตรฐานของ negcon หรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่มีคุณลักษณะรูปภาพoperations
- รายการการดำเนินการเลือกคุณลักษณะ variance_threshold
ลบคุณลักษณะที่มีความแปรปรวนภายใต้เกณฑ์ ทั่วทั้งหลุมบนเพลต correlation_threshold
ลบคุณลักษณะที่ซ้ำซ้อน drop_na_columns
ลบคุณลักษณะที่มีค่า NaN
blocklist
จะลบคุณสมบัติที่เป็นส่วนหนึ่งของรายการบล็อกคุณสมบัติ quality_control
พารามิเตอร์เหล่านี้ระบุประเภทของหน่วยวัดและตัวเลขการควบคุมคุณภาพที่จะสร้าง summary
จะสร้างตารางที่มีสถิติสรุป ในขณะที่ heatmap
จะสร้างแผนที่ความร้อน 3 รายการ โดยแต่ละรายการจะแสดงเมตริกการควบคุมคุณภาพที่แตกต่างกัน
quality_control :
perform : true
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
heatmap :
perform : true
perform
- ไม่ว่าจะสร้างหน่วยวัดหรือตัวเลขการควบคุมคุณภาพหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรสร้างสิ่งเหล่านี้ มีตัววัด qc สองประเภทที่แตกต่างกันที่สามารถสร้างได้ summary
สร้าง summary.tsv
พร้อมสถิติสรุปของแต่ละแผ่นจากแต่ละชุด heatmap
จะสร้างแผนที่ความร้อนสามแผนที่ - จำนวนเซลล์เทียบกับเพลตแมป ความสัมพันธ์ระหว่างหลุมและผลกระทบของตำแหน่งเทียบกับเพลตแมป
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
perform
- จะสร้างไฟล์สรุปหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรสร้างไฟล์นี้row
- ฟิลด์ชื่อแถวใน load_data.csv
column
- ฟิลด์ชื่อคอลัมน์ load_data.csv
heatmap :
perform : true
perform
- จะสร้างแผนที่ความร้อนหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรสร้างแผนที่ความร้อน batch
และ plates
พารามิเตอร์เหล่านี้ระบุชื่อของแบทช์และเพลตที่จะประมวลผล
batch : <BATCH NAME>
plates :
- name : <PLATE NAME>
process : true
process : true
batch
- ชื่อของชุดที่จะประมวลผลplates
-name
- ชื่อของเพลตที่จะประมวลผลprocess
- ไม่ว่าจะแปรรูปจานหรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรประมวลผลจานนี้process
- ว่าจะประมวลผลแบทช์หรือไม่ ค่าเริ่มต้นเป็น true
ตั้งค่าเป็น false
หากไม่ควรประมวลผลแบทช์นี้git submodule update --init --recursive
dvc pull
ข้อมูลเพิ่มเติมเกี่ยวกับการใช้ DVC ที่คุณอาจพบว่ามีประโยชน์:
เมื่อจัดการไฟล์ขนาดใหญ่หรือโฟลเดอร์ขนาดใหญ่ อย่าเพิ่มลงใน GH ด้วย git add
ให้เพิ่มลงใน DVC ด้วย dvc add
แทน การดำเนินการนี้จะอัปโหลดไฟล์/โฟลเดอร์ขนาดใหญ่ไปยัง S3 และสร้างตัวชี้ไปยังการอัปโหลดนั้นบน S3 ใน repo GH (ที่เราติดตามแทนไฟล์/โฟลเดอร์เอง) นอกจากนี้ยังอัปเดต .gitignore เพื่อให้ GH ไม่ติดตามไฟล์/โฟลเดอร์ขนาดใหญ่ จากนั้น dvc push
เพื่ออัปโหลดไฟล์ไปยัง S3
# Add a file or folder to DVC
dvc add LARGEFILE.csv
dvc push
จากนั้นเพิ่มไฟล์/โฟลเดอร์เวอร์ชัน .dvc ที่สร้างขึ้นใน github พร้อมกับ .gitignore ให้สัญญา.
git add LARGEFILE.csv.dvc
git add .gitignore
git commit -m " add largefile "
# Download ALL data stored by DVC in S3
# Only do this if you really, truly want ALL the data
dvc pull
# Download a specific file stored by DVC in S3
dvc get https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv
DVC สร้างชื่อไฟล์ให้เป็นแฮชใน S3 หากต้องการดูแฮชของไฟล์ (เพื่อให้คุณสามารถค้นหาได้โดยตรงบน S3) สำหรับไฟล์ DVC ใด ๆ ให้เพิ่มแฟล็ก --show-url ให้กับคำสั่ง get
:
dvc get --show-url https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv