وصفة التنميط هي عبارة عن مجموعة من البرامج النصية التي تستخدم في المقام الأول وظائف pycytominer لمعالجة التشكيلات المورفولوجية للخلية الواحدة. النصوص الثلاثة هي
profiling-pipeline.py
- يقوم بتشغيل مسار معالجة ملفات التعريف المستندة إلى الصورcsv2gz.py
- يضغط ملفات .csv
create_dirs.sh
- يقوم بإنشاء الدلائل الفرعية لتخزين مخرجات خط أنابيب المعالجةنحن نستخدم Anaconda كمدير للحزم لدينا. قم بتثبيت Miniconda باتباع التعليمات الموجودة هنا.
نحن نستخدم تخزين AWS S3 الذي يتم تتبعه بواسطة DVC لإدارة الملفات الكبيرة. قم بتثبيت AWS CLI باتباع الإرشادات الواردة هنا. بعد التثبيت، قم بتكوين تثبيت AWS CLI باستخدام
aws configure
سوف يطالبك بما يلي:
AWS Access Key ID:
مفتاحك
AWS Secret Access Key:
مفتاحك السري
Default region name:
على سبيل المثال us-east-1
Default output format:
json
لاحظ أن ملف التعريف الذي تدخله يجب أن يكون لديه إذن للتحميل إلى المجموعة التي تقوم بتعيينها لاحقًا.
إذا كنت لا ترغب في تخزين/إصدار ملفات كبيرة على AWS، فيمكنك تخطي تثبيت AWS CLI.
إذا تم استخدام مسار إنشاء ملفات التعريف لتجميع ملفات تعريف الخلية المفردة، فنوصي بتشغيل المسار على نظام به ذاكرة لا يقل حجمها عن ضعف حجم ملفات .sqlite
. إذا كان سيتم استخدام المسار فقط لتشغيل الخطوات التي تقع في أسفل التجميع، فيمكن تشغيله على جهاز محلي.
يتطلب خط الأنابيب بنية مجلد معينة يمكن إنشاؤها على النحو التالي
PROJECT_NAME= " INSERT-PROJECT-NAME "
mkdir -p ~ /work/projects/ ${PROJECT_NAME} /workspace/{backend,software}
قم بتنزيل ملف .sqlite
، الذي يحتوي على ملفات تعريف الخلية المفردة وملف .csv
، الذي يحتوي على ملفات التعريف المجمعة ذات المستوى الجيد، لجميع اللوحات في كل دفعة إلى مجلد backend
. يتم إنشاء هذين الملفين عن طريق تشغيل الأوامر الواردة في الفصل 5.3 من دليل ملفات التعريف. بعد تنزيل الملفات، يجب أن تبدو بنية المجلد كما يلي
backend
├── batch1
│ ├── plate1
│ │ ├── plate1.csv
│ │ └── plate1.sqlite
│ └── plate2
│ ├── plate2.csv
│ └── plate2.sqlite
└── batch2
├── plate1
│ ├── plate1.csv
│ └── plate1.sqlite
└── plate2
├── plate2.csv
└── plate2.sqlite
ملاحظة: ربما لم يتم تنفيذ التجميع بالفعل. في هذه الحالة، سيكون ملف .sqlite
فقط متاحًا للتنزيل.
اللحام عبارة عن عملية تتم من خلالها إضافة مستودع ملفات التعريف إلى مستودع البيانات كوحدة فرعية بحيث يتم إصدار الملفات الموجودة في مستودع البيانات والبرامج النصية الموجودة في وصفة ملفات التعريف التي أنشأت هذه الملفات معًا. يتم توفير تعليمات اللحام هنا. نحن نوصي بشدة بلحام وصفة التوصيف في مستودع البيانات. بعد اللحام، قم باستنساخ مستودع البيانات إلى مجلد software
باستخدام الأمر
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software
git clone < location of the data repository > .git
cd < name of the data repository >
git submodule update --init --recursive
بعد الاستنساخ، يجب أن تبدو بنية المجلد كما يلي
software
└── data_repo
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
من الممكن تشغيل خط الأنابيب دون لحام مستودع وصفة ملفات التعريف بمستودع البيانات. إذا تم تشغيله بهذه الطريقة، فيجب استنساخ مستودع وصفة ملفات التعريف إلى دليل بيانات كدليل فرعي. ثم ستبدو بنية المجلد كما يلي.
software
└── data_directory
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
يتطلب إنشاء جدول إحصائيات ملخص ملفات load_data_csv
. يجب تنزيل هذه الملفات إلى دليل load_data_csv
. تأكد من أن الملفات مضغوطة بصيغة gz، وأن بنية المجلد تبدو كما يلي.
load_data_csv/
├── batch1
│ ├── plate1
│ │ ├── load_data.csv.gz
│ │ └── load_data_with_illum.csv.gz
│ └── plate2
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── batch2
├── plate1
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── plate2
├── load_data.csv.gz
└── load_data_with_illum.csv.gz
يجب تشغيل خط الأنابيب من مستودع البيانات أو دليل البيانات.
DATA= " INSERT-NAME-OF-DATA-REPO-OR-DIR "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
يحتوي ملف Environment.yml على قائمة حزم conda الضرورية لتشغيل خط الأنابيب.
cp profiling-recipe/environment.yml .
conda env create --force --file environment.yml
conda activate profiling
قم بتهيئة DVC لهذا المشروع وقم بتعيينه لتخزين الملفات الكبيرة في S3. تخطى هذه الخطوة إذا لم تكن تستخدم DVC. إذا كنت ترغب في استخدام DVC لموقع تخزين بعيد غير S3، فابحث عن التعليمات هنا. إذا كان لديك ملفات تعريف AWS متعددة على جهازك ولا تريد استخدام الملف الافتراضي لـ DVC، فيمكنك تحديد ملف التعريف الذي سيتم استخدامه عن طريق تشغيل dvc remote modify S3storage profile PROFILE_NAME
في أي وقت بين إضافة جهاز التحكم عن بعد وتنفيذ دفع DVC النهائي.
# Navigate
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ < data_repo >
# Initialize DVC
dvc init
# Set up remote storage
dvc remote add -d S3storage s3:// < bucket > /projects/ ${PROJECT_NAME} /workspace/software/ < data_repo > _DVC
# Commit new files to git
git add .dvc/.gitignore .dvc/config
git commit -m " Setup DVC "
يتم إنشاء الدلائل التي ستحتوي على مخرجات خط الأنابيب على النحو التالي
profiling-recipe/scripts/create_dirs.sh
يتطلب خط الأنابيب barcode_platemap.csv
و platemap.txt
للتشغيل. يمكن أيضًا توفير external_metadata.tsv
اختياريًا للحصول على تعليق توضيحي إضافي. وفيما يلي وصف لكل من هذه الملفات
barcode_platemap.csv
- يحتوي على التعيين بين اللوحات وخرائط اللوحات. يوجد ملف واحد من هذا القبيل لكل دفعة من البيانات. يحتوي الملف على عمودين أسمائهم Assay_Plate_Barcode
و Plate_Map_Name
، ولا ينبغي تغييرهما. ولا ينبغي تغيير اسم الملف أيضًا. يجب أن يكون هذا الملف ملف .csv
مفصول بفواصل.platemap.txt
- يحتوي على التعيين بين أسماء الآبار وأسماء الاضطراب. يوجد ملف واحد لكل خريطة لوحة لكل دفعة. من الضروري وجود عمودين، أحدهما بأسماء البئر ( A01
، A02
...) يسمى well_position
والآخر بمعرف الاضطراب. يمكن تحديد اسم عمود معرف الاضطراب من قبل المستخدم (إذا تم تغييره، قم بتغيير الاسم في ملف config.yml
). يمكن تغيير اسم هذا الملف. إذا تم التغيير، قم أيضًا بتغيير الاسم داخل barcode_platemap.csv
. يجب أن يكون هذا الملف ملف .txt
مفصول بعلامات جدولةexternal_metadata.tsv
- يحتوي على التعيين بين معرف الاضطراب وبيانات التعريف الأخرى. هذا الملف اختياري. يجب أن يكون لعمود معرف الاضطراب نفس اسم العمود الموجود في platemap.txt
. يجب أن يكون هذا الملف ملف .tsv
مفصول بعلامات جدولة. ما يلي هو مثال لملف barcode_platemap.csv
Assay_Plate_Barcode,Plate_Map_Name
plate1,platemap
plate2,platemap
فيما يلي مثال لملف خريطة اللوحة، وهنا مثال لملف البيانات التعريفية الخارجية.
يجب إضافة هذه الملفات إلى المجلد المناسب بحيث تبدو بنية المجلد كما هو موضح أدناه
metadata
├── external_metadata
│ └── external_metadata.tsv
└── platemaps
├── batch1
│ ├── barcode_platemap.csv
│ └── platemap
│ └── platemap.txt
└── batch2
├── barcode_platemap.csv
└── platemap
└── platemap.txt
CONFIG_FILE= " INSERT-CONFIG-FILE-NAME "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
cp profiling-recipe/config_template.yml config_files/ ${CONFIG_FILE} .yml
يحتوي ملف التكوين على جميع المعلمات التي تتطلبها وظائف pycytominer المختلفة، والتي يتم استدعاؤها بواسطة خط أنابيب التنميط. لتشغيل مسار إنشاء ملفات التعريف بمعلمات مختلفة، يمكن إنشاء ملفات تكوين متعددة. يتم وصف كل معلمة في ملف التكوين أدناه. يجب إجراء جميع التغييرات اللازمة على ملف التكوين قبل تشغيل المسار.
إذا تم بالفعل تنفيذ الخطوة الأولى من مسار إنشاء ملفات التعريف، aggregate
، (في المجلد backend
، يوجد ملف .csv
بالإضافة إلى ملف .sqlite
)، فيجب نسخ ملف .csv
إلى مستودع البيانات أو دليل البيانات . إذا لم يكن الأمر كذلك، فانتقل إلى تشغيل مسار إنشاء ملفات التعريف.
قم بتشغيل الأوامر التالية لكل دفعة على حدة. تقوم هذه الأوامر بإنشاء مجلد لكل دفعة، وضغط ملفات .csv
، ثم نسخها إلى مستودع البيانات أو دليل البيانات.
BATCH= " INSERT-BATCH-NAME "
mkdir -p profiles/ ${BATCH}
find ../../backend/ ${BATCH} / -type f -name " *.csv " -exec profiling-recipe/scripts/csv2gz.py {} ;
rsync -arzv --include= " */ " --include= " *.gz " --exclude " * " ../../backend/ ${BATCH} / profiles/ ${BATCH} /
بعد إجراء التغييرات اللازمة على ملف config.yml
، قم بتشغيل مسار إنشاء ملفات التعريف على النحو التالي
python profiling-recipe/profiles/profiling_pipeline.py --config config_files/ ${CONFIG_FILE} .yml
إذا كان هناك عدة ملفات تكوين، فيمكن تشغيل كل واحد منها واحدًا تلو الآخر باستخدام الأمر أعلاه.
ملاحظة: تستخدم كل خطوة في مسار إنشاء ملفات التعريف مخرجات الخطوة السابقة كمدخل لها. ولذلك، تأكد من إنشاء كافة ملفات الإدخال الضرورية قبل تشغيل الخطوات في مسار إنشاء ملفات التعريف. من الممكن تشغيل بضع خطوات فقط في المسار عن طريق الاحتفاظ بهذه الخطوات فقط في ملف التكوين.
إذا كنت تستخدم مستودع بيانات، فادفع ملفات التعريف التي تم إنشاؤها حديثًا إلى DVC وملفات .dvc والملفات الأخرى إلى GitHub كما يلي
dvc add profiles/ ${BATCH} --recursive
dvc push
git add profiles/ ${BATCH} / * / * .dvc profiles/ ${BATCH} / * / * .gitignore
git commit -m ' add profiles '
git add *
git commit -m ' add files made in profiling '
git push
إذا لم تكن تستخدم DVC ولكن تستخدم مستودع بيانات، فادفع جميع الملفات الجديدة إلى GitHub كما يلي
git add *
git commit -m ' add profiles '
git push
يؤدي تشغيل سير عمل التوصيف بكل الخطوات المضمنة إلى إنشاء الملفات التالية
اسم الملف | وصف | موقع |
---|---|---|
<PLATE>.csv.gz | ملفات تعريف مجمعة جيدة المستوى | لمحات / دفعة / لوحة |
<PLATE>_augmented.csv.gz | البيانات التعريفية المشروحة | لمحات / دفعة / لوحة |
<PLATE>_normalized.csv.gz | ملامح تطبيع للوحة بأكملها | لمحات / دفعة / لوحة |
<PLATE>_normalized_negcon.csv.gz | الملامح تطبيع للسيطرة السلبية | لمحات / دفعة / لوحة |
<PLATE>_normalized_feature_select_<LEVEL>.csv.gz | التشكيلات الجانبية المقيسة للوحة بأكملها والتي يتم تحديد ميزاتها على مستوى plate أو batch أو all plates | لمحات / دفعة / لوحة |
<PLATE>_normalized_feature_select_negcon_<LEVEL>.csv.gz | ملفات تعريف التحكم السلبي التي تم تحديدها على مستوى plate أو batch أو all plates | لمحات / دفعة / لوحة |
<BATCH>_normalized_feature_select_<LEVEL>.csv.gz | ملفات تعريف موحدة للوحة بأكملها مكدسة على مستوى الدُفعة والتي يتم تحديد ميزاتها على مستوى batch أو all plates | جي سي تي/دفعة |
<BATCH>_normalized_feature_select_<LEVEL>.gct | تم إنشاء ملف .gct من ملف <BATCH>_normalized_feature_select_<LEVEL>.csv.gz | جي سي تي/دفعة |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | ملفات التعريف المقيسة للتحكم السلبي على مستوى الدُفعة والتي تم تحديد ميزاتها على مستوى batch أو all plates | جي سي تي/دفعة |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.gct | تم إنشاء ملف .gct من ملف <BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | جي سي تي/دفعة |
summary.tsv | إحصائيات موجزة | مراقبة الجودة/الملخص |
<PLATE>_cell_count.png | عدد خلايا اللوحة | Quality_control/heatmap/BATCH/PLATE |
<PLATE>_correlation.png | العلاقة الزوجية بين جميع الآبار الموجودة على طبق من ذهب | Quality_control/heatmap/BATCH/PLATE |
<PLATE>_position_effect.png | مطابقة النسبة المئوية بين كل بئر والآبار الأخرى في نفس الصف والعمود | Quality_control/heatmap/BATCH/PLATE |
هذه هي المعلمات التي ستتطلبها جميع خطوط الأنابيب
يساعد اسم المسار على التمييز بين ملفات التكوين المختلفة. ولا يتم استخدامه بواسطة خط الأنابيب نفسه.
pipeline : <PIPELINE NAME>
اسم الدليل الذي سيتم تخزين ملفات التعريف فيه. إنها profiles
بشكل افتراضي.
output_dir : profiles
اسم عمود اسم البئر في ملفات التعريف aggregated
. إنها Metadata_well_position
بشكل افتراضي.
platemap_well_column : Metadata_well_position
بشكل افتراضي، يتم استخراج ميزات CellProfiler من ثلاث حجرات، cells
، cytoplasm
nuclei
. يتم سرد هذه المقصورات في ملف التكوين على النحو التالي
compartments :
- cells
- cytoplasm
- nuclei
في حالة وجود أقسام "غير أساسية" أخرى في مجموعة البيانات، تتم إضافتها إلى القائمة أعلاه على النحو التالي
compartments :
- cells
- cytoplasm
- nuclei
- newcompartment
ملاحظة: إذا كان اسم الحجرة غير الأساسية هو newcompartment
فيجب أن تبدأ الميزات من تلك الحجرة بـ Newcompartment
(يجب كتابة الحرف الأول فقط بالأحرف الكبيرة). سوف يفشل المسار إذا تم استخدام حالة الجمل أو أي تنسيق آخر لأسماء الميزات.
options :
compression : gzip
float_format : " %.5g "
samples : all
compression
- تنسيق الضغط لملف التعريف .csv
s. القيمة الافتراضية هي gzip
وهي القيمة الوحيدة المقبولة حاليًا.float_format
- عدد الأرقام المهمة.samples
- ما إذا كان سيتم إجراء العمليات التالية على جميع العينات أو مجموعة فرعية منها. القيمة الافتراضية هي القيمة all
المقبولة حاليًا. aggregate
هذه هي المعلمات التي تتم معالجتها بواسطة الدالة pipeline_aggregate()
التي تتفاعل مع pycytominer.cyto_utils.cells.SingleCells()
وتقوم بتجميع ملفات تعريف الخلية المفردة لإنشاء ملفات تعريف على مستوى جيد.
aggregate :
perform : true
plate_column : Metadata_Plate
well_column : Metadata_Well
method : median
fields : all
perform
- ما إذا كان سيتم تنفيذ التجميع. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.plate_column
- اسم العمود الذي يحمل اسم اللوحة. الافتراضي هو Metadata_Plate
.well_column
- اسم العمود الذي يحتوي على أسماء البئر. الافتراضي هو Metadata_Well
.method
- كيفية تنفيذ التجميع. الافتراضي هو median
. كما يقبل mean
.fields
- الخلايا التي يجب تجميع مجال الرؤية منها؟ الافتراضي هو all
. إذا كان سيتم تجميع مجالات عرض محددة (على سبيل المثال 1، 4، 9)، فيمكن القيام بذلك على النحو التالي fields :
- 1
- 4
- 9
بالإضافة إلى ذلك، لإضافة ميزات الصورة بأكملها إلى ملفات التعريف، قم بإدراج فئات الميزات في المعلمة image_feature_categories
. على سبيل المثال
image_feature_catageories :
- Count
- Intensity
annotate
المعلمات هذه هي المعلمات التي تتم معالجتها بواسطة الدالة pipeline_annotate()
التي تتفاعل مع pycytominer.annotate()
وتقوم بتعليق ملفات تعريف مستوى البئر باستخدام البيانات التعريفية.
annotate :
perform : true
well_column : Metadata_Well
external :
perform : true
file : <metadata file name>
merge_column : <Column to merge on>
perform
- ما إذا كان سيتم تنفيذ التعليق التوضيحي. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.well_column
- عمود يحتوي على أسماء البئر في ملفات التعريف المجمعة.external
perform
- ما إذا كان سيتم إضافة تعليق توضيحي لملفات التعريف باستخدام بيانات التعريف الخارجية. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.file
- ملف بيانات التعريف الخارجية الذي يجب أن يكون في المجلد metadata/external_metadata/
.merge_column
- اسم عمود معرف الاضطراب المشترك بين platemap.txt
و external_metadata.tsv
. normalize
المعلمات هذه هي المعلمات التي تتم معالجتها بواسطة الدالة pipeline_normalize()
التي تتفاعل مع pycytominer.normalize()
وتقوم بتطبيع جميع الآبار إلى اللوحة بأكملها.
normalize :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- ما إذا كان سيتم إجراء التطبيع. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.method
- الطريقة التي سيتم استخدامها للتطبيع. الافتراضي هو mad_robustize
. تتوفر خيارات أخرى في pycytominer، مثل standardize
robustize
spherize
.features
- أسماء أعمدة قياس الميزة. الافتراضي هو infer
، الذي يستنتج ميزات CellProfiler من الملفات الشخصية المشروحة.mad_robustize_fudge_factor
- معلمة عامل الهراء إذا كانت طريقة التسوية mad_robustize
.image_features
: ما إذا كانت ميزات الصورة بأكملها موجودة في ملفات التعريف المشروحة. الافتراضي true
. اضبط على false
في حالة عدم وجود ميزات الصورة.normalize_negcon
هذه هي المعلمات التي تتم معالجتها بواسطة الدالة pipeline_normalize()
التي تتفاعل مع pycytominer.normalize()
وتقوم بتطبيع جميع الآبار إلى التحكم السلبي.
normalize_negcon :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- ما إذا كان سيتم إجراء التطبيع. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.method
- الطريقة التي سيتم استخدامها للتطبيع. الافتراضي هو mad_robustize
. تتوفر خيارات أخرى في pycytominer، مثل standardize
robustize
spherize
.features
- أسماء أعمدة قياس الميزة. الافتراضي هو infer
، الذي يستنتج ميزات CellProfiler من الملفات الشخصية المشروحة.mad_robustize_fudge_factor
- معلمة عامل الهراء إذا كانت طريقة التسوية mad_robustize
.image_features
: ما إذا كانت ميزات الصورة بأكملها موجودة في ملفات التعريف المشروحة. الافتراضي true
. اضبط على false
في حالة عدم وجود ميزات الصورة. feature_select
هذه هي المعلمات التي تتم معالجتها بواسطة وظيفة pipeline_feature_select()
التي تتفاعل مع pycytominer.feature_select()
وتحدد الميزات في ملفات التعريف المقيسة للوحة بأكملها.
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- ما إذا كان سيتم تنفيذ اختيار الميزة. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.features
- أسماء أعمدة قياس الميزة. الافتراضي هو infer
، الذي يستنتج ميزات CellProfiler من الملفات الشخصية التي تمت تسويتها.level
- المستوى الذي يجب أن يتم عنده اختيار الميزة. الافتراضي هو batch
. يمكن أيضًا إجراء اختيار الميزات على مستوى batch
all
اللوحات.gct
- ما إذا كان سيتم إنشاء ملف تعريف مكدس على مستوى الدفعة وملف .gct
. الافتراضي false
. يتم إنشاء ملفات التعريف المكدسة وملفات .gct
فقط عندما يكون level
batch
أو all
.image_features
: ما إذا كانت ميزات الصورة بأكملها موجودة في ملفات التعريف المقيسة للوحة بأكملها. الافتراضي true
. اضبط على false
في حالة عدم وجود ميزات الصورة.operations
- قائمة عمليات اختيار الميزة. يقوم variance_threshold
بإزالة الميزات التي لها تباين تحت العتبة، عبر كافة الآبار الموجودة على اللوحة. يزيل correlation_threshold
الميزات الزائدة عن الحاجة. يقوم drop_na_columns
بإزالة الميزات ذات قيم NaN
. تقوم blocklist
بإزالة الميزات التي تشكل جزءًا من القائمة المحظورة للميزات.feature_select_negcon
هذه هي المعلمات التي تتم معالجتها بواسطة وظيفة pipeline_feature_select()
التي تتفاعل مع pycytominer.feature_select()
وتحدد الميزات في ملفات التعريف التي تمت تسويتها للتحكم السلبي.
feature_select_negcon :
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- ما إذا كان سيتم تنفيذ اختيار الميزة. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري تنفيذ ذلك.features
- أسماء أعمدة قياس الميزة. الافتراضي هو infer
، الذي يستنتج ميزات CellProfiler من الملفات الشخصية التي تمت تسويتها.level
- المستوى الذي يجب أن يتم عنده اختيار الميزة. الافتراضي هو batch
. يمكن أيضًا إجراء اختيار الميزات على مستوى batch
all
اللوحات.gct
- ما إذا كان سيتم إنشاء ملف تعريف مكدس على مستوى الدفعة وملف .gct
. الافتراضي false
. يتم إنشاء ملفات التعريف المكدسة وملفات .gct
فقط عندما يكون level
batch
أو all
.image_features
: ما إذا كانت ميزات الصورة بأكملها موجودة في ملفات تعريف Negcon الطبيعية. الافتراضي true
. اضبط على false
في حالة عدم وجود ميزات الصورة.operations
- قائمة عمليات اختيار الميزة. يقوم variance_threshold
بإزالة الميزات التي لها تباين تحت العتبة، عبر كافة الآبار الموجودة على اللوحة. يزيل correlation_threshold
الميزات الزائدة عن الحاجة. يقوم drop_na_columns
بإزالة الميزات ذات قيم NaN
. تقوم blocklist
بإزالة الميزات التي تشكل جزءًا من القائمة المحظورة للميزات. quality_control
تحدد هذه المعلمات نوع مقاييس وأرقام مراقبة الجودة المطلوب إنشاؤها. ينشئ summary
جدولاً يحتوي على إحصائيات ملخصة بينما تقوم heatmap
بإنشاء ثلاث خرائط تمثيلية، تعرض كل منها مقياسًا مختلفًا لمراقبة الجودة.
quality_control :
perform : true
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
heatmap :
perform : true
perform
- سواء لإنشاء مقاييس أو أرقام مراقبة الجودة. الافتراضي true
. اضبط على false
إذا لم يكن من المفترض إنشاء هذه العناصر. هناك نوعان مختلفان من مقاييس مراقبة الجودة التي يمكن إنشاؤها. يقوم summary
بإنشاء summary.tsv
مع إحصائيات ملخصة لكل لوحة من كل دفعة. تُنشئ heatmap
ثلاث خرائط حرارية - عدد الخلايا مقابل خريطة اللوحة، والارتباط بين الآبار وتأثير الموضع مقابل خريطة اللوحة.
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
perform
- ما إذا كان سيتم إنشاء ملف التلخيص أم لا. الافتراضي true
. اضبط على false
إذا لم يكن من المفترض إنشاء هذا الملف.row
- حقل اسم الصف في load_data.csv
.column
- حقل اسم العمود load_data.csv
. heatmap :
perform : true
perform
- ما إذا كان سيتم إنشاء خرائط حرارية أم لا. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري إنشاء خرائط الحرارة. batch
plates
تحدد هذه المعلمات اسم الدفعة واللوحة المطلوب معالجتها.
batch : <BATCH NAME>
plates :
- name : <PLATE NAME>
process : true
process : true
batch
- اسم الدفعة المراد معالجتها.plates
-name
- اسم اللوحة المراد معالجتها.process
- ما إذا كان سيتم معالجة اللوحة. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري معالجة هذه اللوحة.process
- ما إذا كان سيتم معالجة الدفعة أم لا. الافتراضي true
. اضبط على false
إذا لم يكن من الضروري معالجة هذه الدفعة.git submodule update --init --recursive
dvc pull
معلومات إضافية حول استخدام DVC قد تجدها مفيدة:
عند التعامل مع ملفات كبيرة أو مجلد كبير، لا تقم بإضافتها إلى GH باستخدام git add
. بدلاً من ذلك، قم بإضافتها إلى DVC باستخدام dvc add
. يؤدي ذلك إلى تحميل الملف/المجلد الكبير إلى S3 وإنشاء مؤشر لذلك التحميل على S3 في GH repo (الذي نتتبعه بدلاً من الملف/المجلد نفسه). يقوم أيضًا بتحديث .gitignore حتى لا يتتبع GH الملف/المجلد الكبير نفسه. ثم dvc push
لتحميل الملفات إلى S3.
# Add a file or folder to DVC
dvc add LARGEFILE.csv
dvc push
ثم أضف إصدار .dvc للملف/المجلد الذي تم إنشاؤه إلى github مع .gitignore. يقترف.
git add LARGEFILE.csv.dvc
git add .gitignore
git commit -m " add largefile "
# Download ALL data stored by DVC in S3
# Only do this if you really, truly want ALL the data
dvc pull
# Download a specific file stored by DVC in S3
dvc get https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv
يقوم DVC بتحويل أسماء الملفات إلى تجزئات في S3. لرؤية تجزئة الملف (حتى تتمكن من العثور عليه مباشرة على S3) لأي ملف DVC محدد، قم بإضافة علامة --show-url إلى أمر get
:
dvc get --show-url https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv