Das Profiling-Recipe ist eine Sammlung von Skripten, die hauptsächlich Pycytominer-Funktionen verwenden, um morphologische Profile einzelner Zellen zu verarbeiten. Die drei Skripte sind
profiling-pipeline.py
– führt die bildbasierte Profilverarbeitungspipeline auscsv2gz.py
– komprimiert .csv
Dateiencreate_dirs.sh
– erstellt die Unterverzeichnisse zum Speichern der Ausgabe der VerarbeitungspipelineWir verwenden Anaconda als unseren Paketmanager. Installieren Sie Miniconda gemäß den Anweisungen hier.
Für die Verwaltung großer Dateien verwenden wir AWS S3-Speicher, der von DVC verfolgt wird. Installieren Sie AWS CLI gemäß den Anweisungen hier. Konfigurieren Sie nach der Installation Ihre AWS CLI-Installation mit
aws configure
Sie werden aufgefordert:
AWS Access Key ID:
YOUR-KEY
AWS Secret Access Key:
YOUR-SECRET-KEY
Default region name:
z. B. us-east-1
Default output format:
json
Beachten Sie, dass das von Ihnen eingegebene Profil über die Berechtigung zum Hochladen in den Bucket verfügen muss, den Sie später festlegen.
Wenn Sie keine großen Dateien auf AWS speichern/versionieren möchten, können Sie die AWS CLI-Installation überspringen.
Wenn die Profiling-Pipeline zum Aggregieren der einzelnen Zellprofile verwendet wird, empfehlen wir, die Pipeline auf einem System auszuführen, dessen Speicher mindestens doppelt so groß ist wie die .sqlite
Dateien. Wenn die Pipeline nur zum Ausführen von Schritten verwendet wird, die der Aggregation nachgeschaltet sind, kann sie auf einem lokalen Computer ausgeführt werden.
Die Pipeline erfordert eine bestimmte Ordnerstruktur, die wie folgt erstellt werden kann
PROJECT_NAME= " INSERT-PROJECT-NAME "
mkdir -p ~ /work/projects/ ${PROJECT_NAME} /workspace/{backend,software}
Laden Sie die .sqlite
-Datei, die die einzelnen Zellprofile enthält, und die .csv
-Datei, die die aggregierten Profile auf Well-Ebene enthält, für alle Platten in jeder Charge in den backend
Ordner herunter. Diese beiden Dateien werden durch Ausführen der Befehle in Kapitel 5.3 des Profiling-Handbuchs erstellt. Nach dem Herunterladen der Dateien sollte die Ordnerstruktur wie folgt aussehen
backend
├── batch1
│ ├── plate1
│ │ ├── plate1.csv
│ │ └── plate1.sqlite
│ └── plate2
│ ├── plate2.csv
│ └── plate2.sqlite
└── batch2
├── plate1
│ ├── plate1.csv
│ └── plate1.sqlite
└── plate2
├── plate2.csv
└── plate2.sqlite
Hinweis: Die Aggregation wurde möglicherweise noch nicht durchgeführt. In diesem Fall steht nur die .sqlite
Datei zum Download zur Verfügung.
Beim Schweißen handelt es sich um einen Prozess, bei dem das Profilierungsrezept-Repository als Submodul zum Datenrepository hinzugefügt wird, sodass die Dateien im Datenrepository und die Skripts im Profilierungsrezept, die diese Dateien generiert haben, gemeinsam versioniert werden. Eine Anleitung zum Schweißen finden Sie hier. Wir empfehlen dringend, das Profilierungsrezept mit dem Datenrepository zu verknüpfen. Klonen Sie nach dem Schweißen das Datenrepository mit dem Befehl in den software
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software
git clone < location of the data repository > .git
cd < name of the data repository >
git submodule update --init --recursive
Nach dem Klonen sollte die Ordnerstruktur wie folgt aussehen
software
└── data_repo
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
Es ist möglich, die Pipeline auszuführen, ohne das Profilierungsrezept-Repository mit dem Daten-Repository zu verbinden. Bei dieser Ausführung sollte das Profiling-Recipe-Repository als Unterverzeichnis in ein Datenverzeichnis geklont werden. Dann sieht die Ordnerstruktur wie folgt aus.
software
└── data_directory
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
Für die Generierung einer zusammenfassenden Statistiktabelle sind die Dateien load_data_csv
erforderlich. Diese Dateien sollten in das Verzeichnis load_data_csv
heruntergeladen werden. Stellen Sie sicher, dass die Dateien gzip-komprimiert sind und die Ordnerstruktur wie folgt aussieht.
load_data_csv/
├── batch1
│ ├── plate1
│ │ ├── load_data.csv.gz
│ │ └── load_data_with_illum.csv.gz
│ └── plate2
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── batch2
├── plate1
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── plate2
├── load_data.csv.gz
└── load_data_with_illum.csv.gz
Die Pipeline sollte aus dem Datenrepository oder Datenverzeichnis ausgeführt werden.
DATA= " INSERT-NAME-OF-DATA-REPO-OR-DIR "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
Die Datei „environment.yml“ enthält die Liste der Conda-Pakete, die zum Ausführen der Pipeline erforderlich sind.
cp profiling-recipe/environment.yml .
conda env create --force --file environment.yml
conda activate profiling
Initialisieren Sie DVC für dieses Projekt und stellen Sie es so ein, dass große Dateien in S3 gespeichert werden. Überspringen Sie diesen Schritt, wenn Sie DVC nicht verwenden. Wenn Sie DVC für einen Remote-Speicherort verwenden möchten, der nicht S3 ist, finden Sie hier Anweisungen. Wenn Sie mehrere AWS-Profile auf Ihrem Computer haben und nicht das Standardprofil für DVC verwenden möchten, können Sie angeben, welches Profil verwendet werden soll, indem Sie dvc remote modify S3storage profile PROFILE_NAME
zu einem beliebigen Zeitpunkt zwischen dem Hinzufügen des Remote-Profils und der Durchführung des letzten DVC-Push ausführen.
# Navigate
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ < data_repo >
# Initialize DVC
dvc init
# Set up remote storage
dvc remote add -d S3storage s3:// < bucket > /projects/ ${PROJECT_NAME} /workspace/software/ < data_repo > _DVC
# Commit new files to git
git add .dvc/.gitignore .dvc/config
git commit -m " Setup DVC "
Die Verzeichnisse, die die Ausgabe der Pipeline enthalten, werden wie folgt erstellt
profiling-recipe/scripts/create_dirs.sh
Zur Ausführung der Pipeline sind barcode_platemap.csv
und platemap.txt
erforderlich. Für zusätzliche Anmerkungen kann auch eine optionale external_metadata.tsv
bereitgestellt werden. Im Folgenden finden Sie Beschreibungen zu jeder dieser Dateien
barcode_platemap.csv
– enthält die Zuordnung zwischen Platten und Plattenkarten. Pro Datenstapel gibt es eine solche Datei. Die Datei enthält zwei Spalten mit den Namen Assay_Plate_Barcode
und Plate_Map_Name
, die nicht geändert werden sollten. Auch der Name der Datei sollte nicht geändert werden. Diese Datei sollte eine durch Kommas getrennte .csv
Datei sein.platemap.txt
– enthält die Zuordnung zwischen Bohrlochnamen und Störungsnamen. Es gibt eine solche Datei pro Plattenkarte und Charge. Es sind zwei Spalten erforderlich, eine mit den Bohrlochnamen ( A01
, A02
...) namens well_position
“ und die andere mit der Störungskennung. Der Name der Störungskennungsspalte kann vom Benutzer definiert werden (falls geändert, ändern Sie den Namen in der Datei config.yml
). Der Name dieser Datei kann geändert werden. Bei Änderungen auch den Namen in barcode_platemap.csv
ändern. Bei dieser Datei sollte es sich um eine durch Tabulatoren getrennte .txt
Datei handelnexternal_metadata.tsv
– enthält die Zuordnung zwischen Störungskennungen und anderen Metadaten. Diese Datei ist optional. Die Spalte „Störungsidentifikator“ sollte denselben Namen haben wie die Spalte in platemap.txt
. Bei dieser Datei sollte es sich um eine durch Tabulatoren getrennte .tsv
Datei handeln. Im Folgenden finden Sie ein Beispiel für die Datei barcode_platemap.csv
Assay_Plate_Barcode,Plate_Map_Name
plate1,platemap
plate2,platemap
Hier ist ein Beispiel für eine Plattenkartendatei und hier ist ein Beispiel für eine externe Metadatendatei.
Diese Dateien sollten dem entsprechenden Ordner hinzugefügt werden, sodass die Ordnerstruktur wie folgt aussieht
metadata
├── external_metadata
│ └── external_metadata.tsv
└── platemaps
├── batch1
│ ├── barcode_platemap.csv
│ └── platemap
│ └── platemap.txt
└── batch2
├── barcode_platemap.csv
└── platemap
└── platemap.txt
CONFIG_FILE= " INSERT-CONFIG-FILE-NAME "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
cp profiling-recipe/config_template.yml config_files/ ${CONFIG_FILE} .yml
Die Konfigurationsdatei enthält alle Parameter, die verschiedene von der Profiling-Pipeline aufgerufene Pycytominer-Funktionen benötigen. Um die Profiling-Pipeline mit unterschiedlichen Parametern auszuführen, können mehrere Konfigurationsdateien erstellt werden. Jeder Parameter in der Konfigurationsdatei wird unten beschrieben. Alle notwendigen Änderungen an der Konfigurationsdatei müssen vorgenommen werden, bevor die Pipeline ausgeführt werden kann.
Wenn der erste Schritt der Profiling-Pipeline, aggregate
, bereits ausgeführt wurde (im backend
Ordner gibt es zusätzlich zur .sqlite
Datei eine .csv
Datei), muss die .csv
Datei in das Datenrepository oder Datenverzeichnis kopiert werden . Wenn nicht, fahren Sie mit Ausführen der Profiling-Pipeline fort.
Führen Sie die folgenden Befehle für jeden Stapel separat aus. Diese Befehle erstellen für jeden Stapel einen Ordner, komprimieren die .csv
Dateien und kopieren sie dann in das Datenrepository oder Datenverzeichnis.
BATCH= " INSERT-BATCH-NAME "
mkdir -p profiles/ ${BATCH}
find ../../backend/ ${BATCH} / -type f -name " *.csv " -exec profiling-recipe/scripts/csv2gz.py {} ;
rsync -arzv --include= " */ " --include= " *.gz " --exclude " * " ../../backend/ ${BATCH} / profiles/ ${BATCH} /
Nachdem Sie die erforderlichen Änderungen an der Datei config.yml
vorgenommen haben, führen Sie die Profilerstellungspipeline wie folgt aus
python profiling-recipe/profiles/profiling_pipeline.py --config config_files/ ${CONFIG_FILE} .yml
Wenn mehrere Konfigurationsdateien vorhanden sind, kann jede einzelne nacheinander mit dem obigen Befehl ausgeführt werden.
Hinweis: Jeder Schritt in der Profiling-Pipeline verwendet die Ausgabe des vorherigen Schritts als Eingabe. Stellen Sie daher sicher, dass alle erforderlichen Eingabedateien generiert wurden, bevor Sie die Schritte in der Profiling-Pipeline ausführen. Es ist möglich, nur wenige Schritte in der Pipeline auszuführen, indem nur diese Schritte in der Konfigurationsdatei beibehalten werden.
Wenn Sie ein Datenrepository verwenden, übertragen Sie die neu erstellten Profile wie folgt an DVC und die .dvc-Dateien sowie andere Dateien an GitHub
dvc add profiles/ ${BATCH} --recursive
dvc push
git add profiles/ ${BATCH} / * / * .dvc profiles/ ${BATCH} / * / * .gitignore
git commit -m ' add profiles '
git add *
git commit -m ' add files made in profiling '
git push
Wenn Sie nicht DVC, sondern ein Datenrepository verwenden, übertragen Sie alle neuen Dateien wie folgt an GitHub
git add *
git commit -m ' add profiles '
git push
Beim Ausführen des Profiling-Workflows mit allen enthaltenen Schritten werden die folgenden Dateien generiert
Dateiname | Beschreibung | Standort |
---|---|---|
<PLATE>.csv.gz | Aggregierte Well-Level-Profile | Profile/Charge/Platte |
<PLATE>_augmented.csv.gz | Mit Metadaten kommentierte Profile | Profile/Charge/Platte |
<PLATE>_normalized.csv.gz | Auf die gesamte Platte normalisierte Profile | Profile/Charge/Platte |
<PLATE>_normalized_negcon.csv.gz | Auf die Negativkontrolle normalisierte Profile | Profile/Charge/Platte |
<PLATE>_normalized_feature_select_<LEVEL>.csv.gz | Normalisierte Profile für die gesamte Platte, deren Merkmale auf der Ebene der plate , batch oder all plates ausgewählt werden | Profile/Charge/Platte |
<PLATE>_normalized_feature_select_negcon_<LEVEL>.csv.gz | Normalisierte Negativkontrollprofile, deren Merkmale auf plate , batch oder all plates ausgewählt werden | Profile/Charge/Platte |
<BATCH>_normalized_feature_select_<LEVEL>.csv.gz | Auf Chargenebene gestapelte normalisierte Profile für die gesamte Platte, deren Merkmale auf batch oder auf Ebene all plates ausgewählt werden | gct/BATCH |
<BATCH>_normalized_feature_select_<LEVEL>.gct | .gct Datei, erstellt aus der Datei <BATCH>_normalized_feature_select_<LEVEL>.csv.gz | gct/BATCH |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | Gestapelte, normalisierte Negativkontrollprofile auf Chargenebene, deren Merkmale auf batch oder auf Ebene all plates ausgewählt werden | gct/BATCH |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.gct | .gct Datei, erstellt aus der Datei <BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | gct/BATCH |
summary.tsv | Zusammenfassende Statistiken | Qualitätskontrolle/Zusammenfassung |
<PLATE>_cell_count.png | Anzahl der Plattenzellen | qualitätskontrolle/heatmap/BATCH/PLATE |
<PLATE>_correlation.png | Paarweise Korrelation zwischen allen Vertiefungen einer Platte | qualitätskontrolle/heatmap/BATCH/PLATE |
<PLATE>_position_effect.png | Prozentuale Übereinstimmung zwischen jedem Well und anderen Wells in derselben Zeile und Spalte | qualitätskontrolle/heatmap/BATCH/PLATE |
Dies sind die Parameter, die alle Pipelines benötigen
Der Name der Pipeline hilft bei der Unterscheidung der verschiedenen Konfigurationsdateien. Es wird nicht von der Pipeline selbst verwendet.
pipeline : <PIPELINE NAME>
Name des Verzeichnisses, in dem die Profile gespeichert werden. Standardmäßig handelt es sich profiles
.
output_dir : profiles
Name der Brunnennamenspalte in den aggregated
Profilen. Standardmäßig ist es Metadata_well_position
.
platemap_well_column : Metadata_well_position
Standardmäßig werden CellProfiler-Funktionen aus drei Kompartimenten extrahiert: cells
, cytoplasm
und nuclei
. Diese Fächer sind in der Konfigurationsdatei wie folgt aufgeführt
compartments :
- cells
- cytoplasm
- nuclei
Wenn andere „nicht-kanonische“ Kompartimente im Datensatz vorhanden sind, werden diese wie folgt zur obigen Liste hinzugefügt
compartments :
- cells
- cytoplasm
- nuclei
- newcompartment
Hinweis: Wenn der Name des nicht-kanonischen Compartments newcompartment
“ lautet, sollten die Features aus diesem Compartment mit Newcompartment
beginnen (nur das erste Zeichen sollte großgeschrieben werden). Die Pipeline schlägt fehl, wenn für Feature-Namen die Groß-/Kleinschreibung oder ein anderes Format verwendet wird.
options :
compression : gzip
float_format : " %.5g "
samples : all
compression
– Das Komprimierungsformat für das Profil .csv
s. Der Standardwert ist gzip
, was derzeit der einzige akzeptierte Wert ist.float_format
– Die Anzahl der signifikanten Ziffern.samples
– Gibt an, ob die folgenden Vorgänge für alle oder eine Teilmenge der Proben ausgeführt werden sollen. Der Standardwert ist all
was derzeit der einzige akzeptierte Wert ist. aggregate
Hierbei handelt es sich um Parameter, die von der Funktion pipeline_aggregate()
verarbeitet werden, die mit pycytominer.cyto_utils.cells.SingleCells()
interagiert und einzelne Zellprofile aggregiert, um Profile auf Bohrlochebene zu erstellen.
aggregate :
perform : true
plate_column : Metadata_Plate
well_column : Metadata_Well
method : median
fields : all
perform
– Ob eine Aggregation durchgeführt werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.plate_column
– Name der Spalte mit dem Plattennamen. Der Standardwert ist Metadata_Plate
.well_column
– Name der Spalte mit den Well-Namen. Der Standardwert ist Metadata_Well
.method
– So führen Sie eine Aggregation durch. Der Standardwert ist median
. Akzeptiert auch mean
.fields
– Zellen aus welchem Sichtfeld sollen aggregiert werden? Der Standardwert ist all
. Sollen bestimmte Sichtfelder aggregiert werden (z. B. 1, 4, 9), kann dies wie folgt erfolgen fields :
- 1
- 4
- 9
Um den Profilen außerdem ganze Bildfunktionen hinzuzufügen, listen Sie die Funktionskategorien im Parameter image_feature_categories
auf. Zum Beispiel
image_feature_catageories :
- Count
- Intensity
annotate
Dabei handelt es sich um Parameter, die von der Funktion pipeline_annotate()
verarbeitet werden, die mit pycytominer.annotate()
interagiert und die Profile auf Bohrlochebene mit Metadaten annotiert.
annotate :
perform : true
well_column : Metadata_Well
external :
perform : true
file : <metadata file name>
merge_column : <Column to merge on>
perform
– Ob eine Annotation durchgeführt werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.well_column
– Spalte mit den Brunnennamen in den aggregierten Profilen.external
perform
– Ob die Profile mit externen Metadaten annotiert werden sollen. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.file
– externe Metadatendatei, die sich im Ordner metadata/external_metadata/
befinden sollte.merge_column
– Name der Störungskennungsspalte, die für platemap.txt
und external_metadata.tsv
gemeinsam ist. normalize
Dabei handelt es sich um Parameter, die von der Funktion pipeline_normalize()
verarbeitet werden, die mit pycytominer.normalize()
interagiert und alle Wells auf die gesamte Platte normalisiert.
normalize :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
– Ob eine Normalisierung durchgeführt werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.method
– Welche Methode zur Normalisierung verwendet werden soll. Der Standardwert ist mad_robustize
. In Pycytominer sind weitere Optionen verfügbar, z. B. standardize
, robustize
“ und spherize
.features
– Namen der Feature-Messspalten. Der Standardwert ist infer
, wodurch CellProfiler-Funktionen aus den mit Anmerkungen versehenen Profilen abgeleitet werden.mad_robustize_fudge_factor
– Der Fudge-Faktor-Parameter, wenn die Normalisierungsmethode mad_robustize
ist.image_features
: Ob vollständige Bildmerkmale in den kommentierten Profilen vorhanden sind. Der Standardwert ist true
. Auf false
setzen, wenn Bildfunktionen nicht vorhanden sind.normalize_negcon
Parameter Dies sind Parameter, die von der Funktion pipeline_normalize()
verarbeitet werden, die mit pycytominer.normalize()
interagiert und alle Wells auf die Negativkontrolle normalisiert.
normalize_negcon :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
– Ob eine Normalisierung durchgeführt werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.method
– Welche Methode zur Normalisierung verwendet werden soll. Der Standardwert ist mad_robustize
. In Pycytominer sind weitere Optionen verfügbar, z. B. standardize
, robustize
“ und spherize
.features
– Namen der Feature-Messspalten. Der Standardwert ist infer
, wodurch CellProfiler-Funktionen aus den mit Anmerkungen versehenen Profilen abgeleitet werden.mad_robustize_fudge_factor
– Der Fudge-Faktor-Parameter, wenn die Normalisierungsmethode mad_robustize
ist.image_features
: Ob vollständige Bildmerkmale in den kommentierten Profilen vorhanden sind. Der Standardwert ist true
. Auf false
setzen, wenn Bildfunktionen nicht vorhanden sind. feature_select
Parameter Dabei handelt es sich um Parameter, die von der Funktion pipeline_feature_select()
verarbeitet werden, die mit pycytominer.feature_select()
interagiert und Merkmale in den normalisierten Profilen der gesamten Platte auswählt.
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
– Ob eine Funktionsauswahl durchgeführt werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.features
– Namen der Feature-Messspalten. Der Standardwert ist infer
, wodurch CellProfiler-Funktionen aus den normalisierten Profilen abgeleitet werden.level
– Ebene, auf der die Funktionsauswahl durchgeführt werden soll. Der Standardwert ist batch
. Die Merkmalsauswahl kann auch auf batch
und all
durchgeführt werden.gct
– Ob ein gestapeltes Profil auf Stapelebene und eine .gct
Datei erstellt werden sollen. Der Standardwert ist false
. Gestapelte Profile und .gct
Dateien werden nur erstellt, wenn level
batch
oder all
lautet.image_features
: Ob Gesamtbildmerkmale in den normalisierten Profilen der gesamten Platte vorhanden sind. Der Standardwert ist true
. Auf false
setzen, wenn Bildfunktionen nicht vorhanden sind.operations
– Liste der Feature-Auswahloperationen. variance_threshold
entfernt Merkmale, deren Varianz unter dem Schwellenwert liegt, über alle Wells auf einer Platte hinweg. correlation_threshold
entfernt redundante Funktionen. drop_na_columns
entfernt Features mit NaN
-Werten. blocklist
entfernt Features, die Teil der Feature-Blocklist sind.feature_select_negcon
Parameter Dabei handelt es sich um Parameter, die von der Funktion pipeline_feature_select()
verarbeitet werden, die mit pycytominer.feature_select()
interagiert und Features in den Profilen auswählt, die auf die Negativkontrolle normalisiert sind.
feature_select_negcon :
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
– Ob eine Funktionsauswahl durchgeführt werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dies nicht durchgeführt werden soll.features
– Namen der Feature-Messspalten. Der Standardwert ist infer
, wodurch CellProfiler-Funktionen aus den normalisierten Profilen abgeleitet werden.level
– Ebene, auf der die Funktionsauswahl durchgeführt werden soll. Der Standardwert ist batch
. Die Merkmalsauswahl kann auch auf batch
und all
durchgeführt werden.gct
– Ob ein gestapeltes Profil auf Stapelebene und eine .gct
Datei erstellt werden sollen. Der Standardwert ist false
. Gestapelte Profile und .gct
Dateien werden nur erstellt, wenn level
batch
oder all
lautet.image_features
: Ob vollständige Bildmerkmale in den normalisierten Negcon-Profilen vorhanden sind. Der Standardwert ist true
. Auf false
setzen, wenn Bildfunktionen nicht vorhanden sind.operations
– Liste der Feature-Auswahloperationen. variance_threshold
entfernt Merkmale, deren Varianz unter dem Schwellenwert liegt, über alle Wells auf einer Platte hinweg. correlation_threshold
entfernt redundante Funktionen. drop_na_columns
entfernt Features mit NaN
-Werten. blocklist
entfernt Features, die Teil der Feature-Blocklist sind. quality_control
Diese Parameter geben die Art der zu generierenden Qualitätskontrollmetriken und -zahlen an. summary
generiert eine Tabelle mit zusammenfassenden Statistiken, während heatmap
drei Heatmaps generiert, die jeweils eine andere Qualitätskontrollmetrik anzeigen.
quality_control :
perform : true
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
heatmap :
perform : true
perform
– Ob zur Generierung von Qualitätskontrollmetriken oder -zahlen. Der Standardwert ist true
. Auf false
setzen, wenn diese nicht generiert werden sollen. Es können zwei verschiedene Arten von QC-Metriken generiert werden. summary
erstellt summary.tsv
mit zusammenfassenden Statistiken für jede Platte aus jeder Charge. heatmap
generiert drei Heatmaps – Zellzahl vs. Platemap, Korrelation zwischen den Wells und Positionseffekt vs. Platemap.
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
perform
– Ob die Zusammenfassungsdatei generiert werden soll oder nicht. Der Standardwert ist true
. Auf false
setzen, wenn diese Datei nicht generiert werden soll.row
– Zeilennamenfeld in load_data.csv
.column
– Spaltennamenfeld load_data.csv
. heatmap :
perform : true
perform
– Ob Heatmaps generiert werden sollen oder nicht. Der Standardwert ist true
. Auf false
setzen, wenn keine Heatmaps generiert werden sollen. batch
und plates
Diese Parameter geben den Namen der zu verarbeitenden Charge und Platte an.
batch : <BATCH NAME>
plates :
- name : <PLATE NAME>
process : true
process : true
batch
– Name des Batches, der verarbeitet werden soll.plates
-name
– Name der Platte, die bearbeitet werden soll.process
– Ob die Platte verarbeitet werden soll. Der Standardwert ist true
. Auf false
setzen, wenn diese Platte nicht verarbeitet werden soll.process
– Ob der Stapel verarbeitet werden soll. Der Standardwert ist true
. Auf false
setzen, wenn dieser Stapel nicht verarbeitet werden soll.git submodule update --init --recursive
dvc pull
Zusätzliche Informationen zur Verwendung von DVC, die für Sie nützlich sein könnten:
Wenn Sie große Dateien oder einen großen Ordner bearbeiten, fügen Sie diese NICHT mit git add
zu GH hinzu. Fügen Sie sie stattdessen mit dvc add
zu DVC hinzu. Dadurch wird die große Datei/der große Ordner auf S3 hochgeladen und ein Zeiger auf diesen Upload auf S3 im GH-Repo erstellt (den wir anstelle der Datei/des Ordners selbst verfolgen). Es aktualisiert auch .gitignore, sodass GH die große Datei/den großen Ordner selbst nicht verfolgt. Dann dvc push
, um die Dateien auf S3 hochzuladen.
# Add a file or folder to DVC
dvc add LARGEFILE.csv
dvc push
Fügen Sie dann die .dvc-Version der Datei/des erstellten Ordners zusammen mit dem .gitignore zu Github hinzu. Begehen.
git add LARGEFILE.csv.dvc
git add .gitignore
git commit -m " add largefile "
# Download ALL data stored by DVC in S3
# Only do this if you really, truly want ALL the data
dvc pull
# Download a specific file stored by DVC in S3
dvc get https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv
DVC wandelt Dateinamen in S3 in Hashes um. Um den Datei-Hash für eine bestimmte DVC-Datei anzuzeigen (damit Sie ihn direkt in S3 finden können), fügen Sie dem get
-Befehl das Flag --show-url hinzu:
dvc get --show-url https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv