La recette de profilage est une collection de scripts qui utilisent principalement les fonctions de pycytominer pour traiter les profils morphologiques unicellulaires. Les trois scripts sont
profiling-pipeline.py
- exécute le pipeline de traitement de profil basé sur l'imagecsv2gz.py
- compresse les fichiers .csv
create_dirs.sh
- crée les sous-répertoires pour stocker la sortie du pipeline de traitementNous utilisons Anaconda comme gestionnaire de packages. Installez Miniconda en suivant les instructions ici.
Nous utilisons le stockage AWS S3 suivi par DVC pour la gestion des fichiers volumineux. Installez AWS CLI en suivant les instructions ici. Après l'installation, configurez votre installation AWS CLI avec
aws configure
Il vous demandera :
AWS Access Key ID:
VOTRE-CLÉ
AWS Secret Access Key:
VOTRE-SECRET-KEY
Default region name:
par exemple us-east-1
Default output format:
json
Notez que le profil que vous saisissez doit disposer de l'autorisation de téléchargement vers le compartiment que vous avez défini ultérieurement.
Si vous ne souhaitez pas stocker/versionner des fichiers volumineux sur AWS, vous pouvez ignorer l'installation de l'AWS CLI.
Si le pipeline de profilage est utilisé pour agréger les profils de cellule unique, nous vous recommandons d'exécuter le pipeline sur un système doté d'une mémoire au moins deux fois supérieure à celle des fichiers .sqlite
. Si le pipeline doit être utilisé uniquement pour exécuter des étapes en aval de l'agrégation, il peut alors être exécuté sur une machine locale.
Le pipeline nécessite une structure de dossiers particulière qui peut être créée comme suit
PROJECT_NAME= " INSERT-PROJECT-NAME "
mkdir -p ~ /work/projects/ ${PROJECT_NAME} /workspace/{backend,software}
Téléchargez le fichier .sqlite
, qui contient les profils de cellule unique et le fichier .csv
, qui contient les profils agrégés au niveau du puits, pour toutes les plaques de chaque lot dans le dossier backend
. Ces deux fichiers sont créés en exécutant les commandes du chapitre 5.3 du manuel de profilage. Après avoir téléchargé les fichiers, la structure des dossiers devrait ressembler à ceci
backend
├── batch1
│ ├── plate1
│ │ ├── plate1.csv
│ │ └── plate1.sqlite
│ └── plate2
│ ├── plate2.csv
│ └── plate2.sqlite
└── batch2
├── plate1
│ ├── plate1.csv
│ └── plate1.sqlite
└── plate2
├── plate2.csv
└── plate2.sqlite
Remarque : L'agrégation n'a peut-être pas déjà été effectuée. Dans ce cas, seul le fichier .sqlite
sera disponible au téléchargement.
Le soudage est un processus par lequel le référentiel de recettes de profilage est ajouté au référentiel de données en tant que sous-module de sorte que les fichiers du référentiel de données et les scripts de la recette de profilage qui ont généré ces fichiers soient versionnés ensemble. Les instructions de soudage sont fournies ici. Nous vous recommandons fortement de souder la recette de profilage au référentiel de données. Après le soudage, clonez le référentiel de données dans le dossier software
, à l'aide de la commande
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software
git clone < location of the data repository > .git
cd < name of the data repository >
git submodule update --init --recursive
Après le clonage, la structure des dossiers devrait ressembler à ceci
software
└── data_repo
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
Il est possible d'exécuter le pipeline sans souder le référentiel de recettes de profilage au référentiel de données. S'il est exécuté de cette manière, le référentiel de recettes de profilage doit être cloné dans un répertoire de données en tant que sous-répertoire. Ensuite, la structure des dossiers ressemblera à ceci.
software
└── data_directory
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
La génération d'un tableau de statistiques récapitulatives nécessite des fichiers load_data_csv
. Ces fichiers doivent être téléchargés dans le répertoire load_data_csv
. Assurez-vous que les fichiers sont compressés et que la structure des dossiers se présente comme suit.
load_data_csv/
├── batch1
│ ├── plate1
│ │ ├── load_data.csv.gz
│ │ └── load_data_with_illum.csv.gz
│ └── plate2
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── batch2
├── plate1
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── plate2
├── load_data.csv.gz
└── load_data_with_illum.csv.gz
Le pipeline doit être exécuté à partir du référentiel de données ou du répertoire de données.
DATA= " INSERT-NAME-OF-DATA-REPO-OR-DIR "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
Le fichier environnement.yml contient la liste des packages conda nécessaires à l'exécution du pipeline.
cp profiling-recipe/environment.yml .
conda env create --force --file environment.yml
conda activate profiling
Initialisez DVC pour ce projet et configurez-le pour stocker des fichiers volumineux dans S3. Ignorez cette étape si vous n'utilisez pas DVC. Si vous souhaitez utiliser DVC pour un emplacement de stockage distant autre que S3, trouvez les instructions ici. Si vous disposez de plusieurs profils AWS sur votre ordinateur et que vous ne souhaitez pas utiliser celui par défaut pour DVC, vous pouvez spécifier le profil à utiliser en exécutant dvc remote modify S3storage profile PROFILE_NAME
à tout moment entre l'ajout du profil distant et l'exécution de la poussée DVC finale.
# Navigate
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ < data_repo >
# Initialize DVC
dvc init
# Set up remote storage
dvc remote add -d S3storage s3:// < bucket > /projects/ ${PROJECT_NAME} /workspace/software/ < data_repo > _DVC
# Commit new files to git
git add .dvc/.gitignore .dvc/config
git commit -m " Setup DVC "
Les répertoires qui contiendront la sortie du pipeline sont créés comme suit
profiling-recipe/scripts/create_dirs.sh
Le pipeline nécessite barcode_platemap.csv
et platemap.txt
pour s'exécuter. Un external_metadata.tsv
facultatif peut également être fourni pour une annotation supplémentaire. Voici les descriptions de chacun de ces fichiers
barcode_platemap.csv
- contient le mappage entre les plaques et les cartes de plaques. Il existe un fichier de ce type par lot de données. Le fichier contient deux colonnes dont les noms sont Assay_Plate_Barcode
et Plate_Map_Name
, qui ne doivent pas être modifiés. Le nom du fichier ne doit pas non plus être modifié. Ce fichier doit être un fichier .csv
séparé par des virgules.platemap.txt
- contient le mappage entre les noms de puits et les noms de perturbations. Il existe un fichier de ce type par carte de plaque et par lot. Deux colonnes sont nécessaires, l'une avec les noms de puits ( A01
, A02
...) appelée well_position
et l'autre avec l'identifiant de la perturbation. Le nom de la colonne d'identifiant de perturbation peut être défini par l'utilisateur (s'il est modifié, modifiez le nom dans le fichier config.yml
). Le nom de ce fichier peut être modifié. S'il est modifié, modifiez également le nom dans barcode_platemap.csv
. Ce fichier doit être un fichier .txt
séparé par des tabulationsexternal_metadata.tsv
- contient le mappage entre l'identifiant de perturbation et d'autres métadonnées. Ce fichier est facultatif. La colonne d'identifiant de perturbation doit avoir le même nom que la colonne dans platemap.txt
. Ce fichier doit être un fichier .tsv
séparé par des tabulations. Voici un exemple du fichier barcode_platemap.csv
Assay_Plate_Barcode,Plate_Map_Name
plate1,platemap
plate2,platemap
Voici un exemple de fichier de carte de plaque et voici un exemple de fichier de métadonnées externes.
Ces fichiers doivent être ajoutés au dossier approprié afin que la structure des dossiers ressemble à ci-dessous
metadata
├── external_metadata
│ └── external_metadata.tsv
└── platemaps
├── batch1
│ ├── barcode_platemap.csv
│ └── platemap
│ └── platemap.txt
└── batch2
├── barcode_platemap.csv
└── platemap
└── platemap.txt
CONFIG_FILE= " INSERT-CONFIG-FILE-NAME "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
cp profiling-recipe/config_template.yml config_files/ ${CONFIG_FILE} .yml
Le fichier de configuration contient tous les paramètres requis par diverses fonctions de pycytominer, appelées par le pipeline de profilage. Pour exécuter le pipeline de profilage avec différents paramètres, plusieurs fichiers de configuration peuvent être créés. Chaque paramètre du fichier de configuration est décrit ci-dessous. Toutes les modifications nécessaires au fichier de configuration doivent être apportées avant que le pipeline puisse être exécuté.
Si la première étape du pipeline de profilage, aggregate
, a déjà été effectuée (dans le dossier backend
, il y a un fichier .csv
en plus du fichier .sqlite
), alors le fichier .csv
doit être copié dans le référentiel de données ou le répertoire de données. . Sinon, passez à Exécution du pipeline de profilage.
Exécutez les commandes suivantes pour chaque lot séparément. Ces commandes créent un dossier pour chaque lot, compressent les fichiers .csv
, puis les copient dans le référentiel de données ou le répertoire de données.
BATCH= " INSERT-BATCH-NAME "
mkdir -p profiles/ ${BATCH}
find ../../backend/ ${BATCH} / -type f -name " *.csv " -exec profiling-recipe/scripts/csv2gz.py {} ;
rsync -arzv --include= " */ " --include= " *.gz " --exclude " * " ../../backend/ ${BATCH} / profiles/ ${BATCH} /
Après avoir apporté les modifications nécessaires au fichier config.yml
, exécutez le pipeline de profilage comme suit
python profiling-recipe/profiles/profiling_pipeline.py --config config_files/ ${CONFIG_FILE} .yml
S'il existe plusieurs fichiers de configuration, chacun d'eux peut être exécuté l'un après l'autre à l'aide de la commande ci-dessus.
Remarque : Chaque étape du pipeline de profilage utilise la sortie de l'étape précédente comme entrée. Par conséquent, assurez-vous que tous les fichiers d'entrée nécessaires ont été générés avant d'exécuter les étapes du pipeline de profilage. Il est possible d'exécuter seulement quelques étapes dans le pipeline en conservant uniquement ces étapes dans le fichier de configuration.
Si vous utilisez un référentiel de données, transférez les profils nouvellement créés vers DVC et les fichiers .dvc et autres fichiers vers GitHub comme suit
dvc add profiles/ ${BATCH} --recursive
dvc push
git add profiles/ ${BATCH} / * / * .dvc profiles/ ${BATCH} / * / * .gitignore
git commit -m ' add profiles '
git add *
git commit -m ' add files made in profiling '
git push
Si vous n'utilisez pas DVC mais utilisez un référentiel de données, transférez tous les nouveaux fichiers vers GitHub comme suit
git add *
git commit -m ' add profiles '
git push
L'exécution du workflow de profilage avec toutes les étapes incluses génère les fichiers suivants
Nom de fichier | Description | Emplacement |
---|---|---|
<PLATE>.csv.gz | Profils agrégés au niveau des puits | profils/LOT/PLAQUE |
<PLATE>_augmented.csv.gz | Profils annotés par métadonnées | profils/LOT/PLAQUE |
<PLATE>_normalized.csv.gz | Profils normalisés à toute la plaque | profils/LOT/PLAQUE |
<PLATE>_normalized_negcon.csv.gz | Profils normalisés au contrôle négatif | profils/LOT/PLAQUE |
<PLATE>_normalized_feature_select_<LEVEL>.csv.gz | Profils normalisés de plaque entière dont les caractéristiques sont sélectionnées au niveau de la plate , batch ou all plates | profils/LOT/PLAQUE |
<PLATE>_normalized_feature_select_negcon_<LEVEL>.csv.gz | Profils normalisés de contrôle négatif dont les caractéristiques sont sélectionnées au niveau de la plate , batch ou all plates | profils/LOT/PLAQUE |
<BATCH>_normalized_feature_select_<LEVEL>.csv.gz | Profils normalisés de plaques entières empilées au niveau du lot dont les caractéristiques sont sélectionnées au niveau batch ou all plates | gct/LOT |
<BATCH>_normalized_feature_select_<LEVEL>.gct | Fichier .gct créé à partir du fichier <BATCH>_normalized_feature_select_<LEVEL>.csv.gz | gct/LOT |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | Profils normalisés de contrôle négatif empilés au niveau du lot dont les caractéristiques sont sélectionnées au niveau batch ou all plates | gct/LOT |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.gct | Fichier .gct créé à partir du fichier <BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | gct/LOT |
summary.tsv | Statistiques récapitulatives | contrôle_qualité/résumé |
<PLATE>_cell_count.png | Nombre de cellules sur plaque | contrôle_qualité/heatmap/BATCH/PLATE |
<PLATE>_correlation.png | Corrélation par paires entre tous les puits d'une plaque | contrôle_qualité/heatmap/BATCH/PLATE |
<PLATE>_position_effect.png | Pourcentage de correspondance entre chaque puits et les autres puits de la même ligne et colonne | contrôle_qualité/heatmap/BATCH/PLATE |
Ce sont les paramètres dont tous les pipelines auront besoin
Le nom du pipeline permet de distinguer les différents fichiers de configuration. Il n’est pas utilisé par le pipeline lui-même.
pipeline : <PIPELINE NAME>
Nom du répertoire où seront stockés les profils. Ce sont profiles
par défaut.
output_dir : profiles
Nom de la colonne de nom de puits dans les profils aggregated
. Il s'agit de Metadata_well_position
par défaut.
platemap_well_column : Metadata_well_position
Par défaut, les fonctionnalités de CellProfiler sont extraites de trois compartiments, cells
, cytoplasm
et nuclei
. Ces compartiments sont répertoriés dans le fichier de configuration comme suit
compartments :
- cells
- cytoplasm
- nuclei
Si d'autres compartiments « non canoniques » sont présents dans l'ensemble de données, alors ceux-ci sont ajoutés à la liste ci-dessus comme suit
compartments :
- cells
- cytoplasm
- nuclei
- newcompartment
Remarque : si le nom du compartiment non canonique est newcompartment
, les fonctionnalités de ce compartiment doivent commencer par Newcompartment
(seul le premier caractère doit être en majuscule). Le pipeline échouera si la casse camel ou tout autre format est utilisé pour les noms de fonctionnalités.
options :
compression : gzip
float_format : " %.5g "
samples : all
compression
- Le format de compression pour les profils .csv
. La valeur par défaut est gzip
qui est actuellement la seule valeur acceptée.float_format
- Le nombre de chiffres significatifs.samples
- S'il faut effectuer les opérations suivantes sur tous ou sur un sous-ensemble des échantillons. La valeur par défaut est all
ce qui est actuellement la seule valeur acceptée. aggregate
Il s'agit de paramètres traités par la fonction pipeline_aggregate()
qui interagit avec pycytominer.cyto_utils.cells.SingleCells()
et agrège les profils de cellule unique pour créer des profils de niveau puits.
aggregate :
perform : true
plate_column : Metadata_Plate
well_column : Metadata_Well
method : median
fields : all
perform
- S'il faut effectuer une agrégation. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.plate_column
- Nom de la colonne avec le nom de la plaque. La valeur par défaut est Metadata_Plate
.well_column
- Nom de la colonne avec les noms de puits. La valeur par défaut est Metadata_Well
.method
- Comment effectuer une agrégation. La valeur par défaut est median
. Accepte également mean
.fields
- Cellules à partir de quel champ de vision doivent être agrégées ? Par défaut, c'est all
. Si des champs de vision spécifiques doivent être agrégés (par exemple 1, 4, 9), cela peut être fait comme suit fields :
- 1
- 4
- 9
De plus, pour ajouter des fonctionnalités d'image entières aux profils, répertoriez les catégories de fonctionnalités dans le paramètre image_feature_categories
. Par exemple
image_feature_catageories :
- Count
- Intensity
annotate
les paramètres Ce sont des paramètres qui sont traités par la fonction pipeline_annotate()
qui interagit avec pycytominer.annotate()
et annote les profils au niveau du puits avec des métadonnées.
annotate :
perform : true
well_column : Metadata_Well
external :
perform : true
file : <metadata file name>
merge_column : <Column to merge on>
perform
- S'il faut effectuer une annotation. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.well_column
- Colonne avec les noms de puits dans les profils agrégés.external
perform
- S'il faut annoter les profils avec des métadonnées externes. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.file
- fichier de métadonnées externe qui doit se trouver dans le dossier metadata/external_metadata/
.merge_column
- Nom de la colonne d'identifiant de perturbation commune à platemap.txt
et external_metadata.tsv
. normalize
les paramètres Ce sont des paramètres traités par la fonction pipeline_normalize()
qui interagit avec pycytominer.normalize()
et normalise tous les puits sur toute la plaque.
normalize :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- S'il faut effectuer une normalisation. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.method
- Quelle méthode utiliser pour la normalisation. La valeur par défaut est mad_robustize
. D'autres options sont disponibles dans pycytominer, telles que standardize
, robustize
et spherize
.features
- Noms des colonnes de mesure des fonctionnalités. La valeur par défaut est infer
, qui déduit les fonctionnalités de CellProfiler à partir des profils annotés.mad_robustize_fudge_factor
- Le paramètre du facteur de fudge si la méthode de normalisation est mad_robustize
.image_features
: indique si les caractéristiques de l'image entière sont présentes dans les profils annotés. La valeur par défaut est true
. Définissez sur false
si les caractéristiques de l’image ne sont pas présentes.normalize_negcon
Ce sont des paramètres qui sont traités par la fonction pipeline_normalize()
qui interagit avec pycytominer.normalize()
et normalise tous les puits par rapport au contrôle négatif.
normalize_negcon :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- S'il faut effectuer une normalisation. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.method
- Quelle méthode utiliser pour la normalisation. La valeur par défaut est mad_robustize
. D'autres options sont disponibles dans pycytominer, telles que standardize
, robustize
et spherize
.features
- Noms des colonnes de mesure des fonctionnalités. La valeur par défaut est infer
, qui déduit les fonctionnalités de CellProfiler à partir des profils annotés.mad_robustize_fudge_factor
- Le paramètre du facteur de fudge si la méthode de normalisation est mad_robustize
.image_features
: indique si les caractéristiques de l'image entière sont présentes dans les profils annotés. La valeur par défaut est true
. Définissez sur false
si les caractéristiques de l’image ne sont pas présentes. feature_select
Il s'agit de paramètres traités par la fonction pipeline_feature_select()
qui interagit avec pycytominer.feature_select()
et sélectionne les fonctionnalités dans les profils normalisés de la plaque entière.
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- S'il faut effectuer la sélection des fonctionnalités. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.features
- Noms des colonnes de mesure des fonctionnalités. La valeur par défaut est infer
, qui déduit les fonctionnalités de CellProfiler à partir des profils normalisés.level
- Niveau auquel la sélection des fonctionnalités doit être effectuée. La valeur par défaut est batch
. La sélection des fonctionnalités peut également être effectuée au niveau batch
et all
les plaques.gct
- S'il faut créer un profil empilé au niveau du lot et un fichier .gct
. La valeur par défaut est false
. Les profils empilés et les fichiers .gct
sont créés uniquement lorsque level
est batch
ou all
.image_features
: indique si les caractéristiques de l'image entière sont présentes dans les profils normalisés de la plaque entière. La valeur par défaut est true
. Définissez sur false
si les caractéristiques de l’image ne sont pas présentes.operations
- Liste des opérations de sélection de fonctionnalités. variance_threshold
supprime les entités qui ont une variance inférieure au seuil, dans tous les puits d'une plaque. correlation_threshold
supprime les fonctionnalités redondantes. drop_na_columns
supprime les fonctionnalités avec des valeurs NaN
. blocklist
supprime les fonctionnalités qui font partie de la liste de blocage des fonctionnalités.feature_select_negcon
Il s'agit de paramètres traités par la fonction pipeline_feature_select()
qui interagit avec pycytominer.feature_select()
et sélectionne les fonctionnalités dans les profils normalisés par rapport au contrôle négatif.
feature_select_negcon :
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- S'il faut effectuer la sélection des fonctionnalités. La valeur par défaut est true
. Définissez sur false
si cela ne doit pas être effectué.features
- Noms des colonnes de mesure des fonctionnalités. La valeur par défaut est infer
, qui déduit les fonctionnalités de CellProfiler à partir des profils normalisés.level
- Niveau auquel la sélection des fonctionnalités doit être effectuée. La valeur par défaut est batch
. La sélection des fonctionnalités peut également être effectuée au niveau batch
et all
les plaques.gct
- S'il faut créer un profil empilé au niveau du lot et un fichier .gct
. La valeur par défaut est false
. Les profils empilés et les fichiers .gct
sont créés uniquement lorsque level
est batch
ou all
.image_features
: indique si les caractéristiques de l'image entière sont présentes dans les profils normalisés Negcon. La valeur par défaut est true
. Définissez sur false
si les caractéristiques de l’image ne sont pas présentes.operations
- Liste des opérations de sélection de fonctionnalités. variance_threshold
supprime les entités qui ont une variance inférieure au seuil, dans tous les puits d'une plaque. correlation_threshold
supprime les fonctionnalités redondantes. drop_na_columns
supprime les fonctionnalités avec des valeurs NaN
. blocklist
supprime les fonctionnalités qui font partie de la liste de blocage des fonctionnalités. quality_control
Ces paramètres spécifient le type de mesures et de chiffres de contrôle qualité à générer. summary
génère un tableau avec des statistiques récapitulatives tandis que heatmap
génère trois cartes thermiques, chacune montrant une métrique de contrôle qualité différente.
quality_control :
perform : true
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
heatmap :
perform : true
perform
- Qu'il s'agisse de générer des mesures ou des chiffres de contrôle qualité. La valeur par défaut est true
. Définissez sur false
si ceux-ci ne doivent pas être générés. Il existe deux types différents de métriques QC qui peuvent être générées. summary
crée summary.tsv
avec des statistiques récapitulatives de chaque plaque de chaque lot. heatmap
génère trois cartes thermiques : nombre de cellules par rapport à la carte des plaques, corrélation entre les puits et effet de position par rapport à la carte des plaques.
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
perform
- S'il faut ou non générer le fichier récapitulatif. La valeur par défaut est true
. Définissez sur false
si ce fichier ne doit pas être généré.row
- Champ de nom de ligne dans load_data.csv
.column
- Champ de nom de colonne load_data.csv
. heatmap :
perform : true
perform
- S'il faut ou non générer des cartes thermiques. La valeur par défaut est true
. Définissez sur false
si les cartes thermiques ne doivent pas être générées. batch
et plates
Ces paramètres précisent le nom du lot et de la plaque à traiter.
batch : <BATCH NAME>
plates :
- name : <PLATE NAME>
process : true
process : true
batch
- Nom du lot à traiter.plates
-name
- Nom de la plaque à traiter.process
- S'il faut traiter la plaque. La valeur par défaut est true
. Définissez sur false
si cette plaque ne doit pas être traitée.process
- S'il faut traiter le lot. La valeur par défaut est true
. Définissez sur false
si ce lot ne doit pas être traité.git submodule update --init --recursive
dvc pull
Informations supplémentaires sur l'utilisation de DVC qui pourraient vous être utiles :
Lorsque vous manipulez des fichiers volumineux ou un dossier volumineux, ne les ajoutez PAS à GH avec git add
. Au lieu de cela, ajoutez-les à DVC avec dvc add
. Cela télécharge le gros fichier/dossier sur S3 et crée un pointeur vers ce téléchargement sur S3 dans le dépôt GH (que nous suivons à la place du fichier/dossier lui-même). Il met également à jour .gitignore afin que GH ne suive pas lui-même le gros fichier/dossier. Ensuite, dvc push
pour télécharger les fichiers sur S3.
# Add a file or folder to DVC
dvc add LARGEFILE.csv
dvc push
Ajoutez ensuite la version .dvc du fichier/dossier créé sur github avec le .gitignore. Commettre.
git add LARGEFILE.csv.dvc
git add .gitignore
git commit -m " add largefile "
# Download ALL data stored by DVC in S3
# Only do this if you really, truly want ALL the data
dvc pull
# Download a specific file stored by DVC in S3
dvc get https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv
DVC transforme les noms de fichiers en hachages dans S3. Pour voir le hachage du fichier (afin que vous puissiez le trouver directement sur S3) pour un fichier DVC donné, ajoutez l'indicateur --show-url à la commande get
:
dvc get --show-url https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv