Resep pembuatan profil adalah kumpulan skrip yang terutama menggunakan fungsi pycytominer untuk memproses profil morfologi sel tunggal. Ketiga skrip tersebut adalah
profiling-pipeline.py
- menjalankan pipeline pemrosesan profil berbasis gambarcsv2gz.py
- mengompres file .csv
create_dirs.sh
- membuat subdirektori untuk menyimpan output dari pipa pemrosesanKami menggunakan Anaconda sebagai manajer paket kami. Instal Miniconda dengan mengikuti petunjuk di sini.
Kami menggunakan penyimpanan AWS S3 yang dilacak oleh DVC untuk manajemen file besar. Instal AWS CLI dengan mengikuti petunjuk di sini. Setelah instalasi, konfigurasikan instalasi AWS CLI Anda dengan
aws configure
Ini akan meminta Anda untuk:
AWS Access Key ID:
KUNCI ANDA
AWS Secret Access Key:
KUNCI RAHASIA ANDA
Default region name:
misalnya us-east-1
Default output format:
json
Perhatikan bahwa profil yang Anda masukkan harus memiliki izin untuk diunggah ke bucket yang Anda atur nanti.
Jika Anda tidak ingin menyimpan/versi file besar di AWS, Anda dapat melewati instalasi AWS CLI.
Jika alur pembuatan profil digunakan untuk menggabungkan profil sel tunggal, kami menyarankan untuk menjalankan alur pada sistem dengan memori setidaknya dua kali ukuran file .sqlite
. Jika pipeline hanya akan digunakan untuk menjalankan langkah-langkah di bagian hilir agregasi, maka pipeline dapat dijalankan di mesin lokal.
Pipeline memerlukan struktur folder tertentu yang dapat dibuat sebagai berikut
PROJECT_NAME= " INSERT-PROJECT-NAME "
mkdir -p ~ /work/projects/ ${PROJECT_NAME} /workspace/{backend,software}
Unduh file .sqlite
, yang berisi profil sel tunggal dan file .csv
, yang berisi profil gabungan tingkat tinggi, untuk semua pelat di setiap batch ke folder backend
. Kedua file ini dibuat dengan menjalankan perintah di bab 5.3 dari buku pegangan pembuatan profil. Setelah mengunduh file, struktur folder akan terlihat seperti berikut
backend
├── batch1
│ ├── plate1
│ │ ├── plate1.csv
│ │ └── plate1.sqlite
│ └── plate2
│ ├── plate2.csv
│ └── plate2.sqlite
└── batch2
├── plate1
│ ├── plate1.csv
│ └── plate1.sqlite
└── plate2
├── plate2.csv
└── plate2.sqlite
Catatan: Agregasi mungkin belum dilakukan. Dalam hal ini, hanya file .sqlite
yang akan tersedia untuk diunduh.
Pengelasan adalah proses yang menambahkan repositori resep profil ke repositori data sebagai submodul sehingga file dalam repositori data dan skrip dalam resep profil yang menghasilkan file tersebut, dibuat versinya bersama-sama. Petunjuk pengelasan disediakan di sini. Kami sangat menyarankan untuk menyatukan resep pembuatan profil ke penyimpanan data. Setelah pengelasan, kloning penyimpanan data ke folder software
, menggunakan perintah
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software
git clone < location of the data repository > .git
cd < name of the data repository >
git submodule update --init --recursive
Setelah kloning, struktur folder akan terlihat seperti berikut
software
└── data_repo
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
Dimungkinkan untuk menjalankan pipeline tanpa menyatukan repositori resep pembuatan profil ke repositori data. Jika dijalankan dengan cara ini, repositori resep pembuatan profil harus diklon ke direktori data sebagai subdirektori. Maka akan terlihat struktur foldernya seperti berikut.
software
└── data_directory
├── LICENSE
├── README.md
└── profiling-recipe
├── LICENSE
├── README.md
├── config_template.yml
├── environment.yml
├── profiles
│ ├── profile.py
│ ├── profiling_pipeline.py
│ └── utils.py
└── scripts
├── create_dirs.sh
└── csv2gz.py
Menghasilkan tabel ringkasan statistik memerlukan file load_data_csv
. File-file ini harus diunduh ke direktori load_data_csv
. Pastikan file di-gzip, dan struktur foldernya terlihat seperti berikut.
load_data_csv/
├── batch1
│ ├── plate1
│ │ ├── load_data.csv.gz
│ │ └── load_data_with_illum.csv.gz
│ └── plate2
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── batch2
├── plate1
│ ├── load_data.csv.gz
│ └── load_data_with_illum.csv.gz
└── plate2
├── load_data.csv.gz
└── load_data_with_illum.csv.gz
Alur harus dijalankan dari repositori data atau direktori data.
DATA= " INSERT-NAME-OF-DATA-REPO-OR-DIR "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
File environment.yml berisi daftar paket conda yang diperlukan untuk menjalankan pipeline.
cp profiling-recipe/environment.yml .
conda env create --force --file environment.yml
conda activate profiling
Inisialisasi DVC untuk proyek ini dan atur untuk menyimpan file besar di S3. Lewati langkah ini jika tidak menggunakan DVC. Jika Anda ingin menggunakan DVC untuk lokasi penyimpanan jarak jauh selain S3, temukan petunjuknya di sini. Jika Anda memiliki beberapa profil AWS di mesin Anda dan tidak ingin menggunakan profil default untuk DVC, Anda dapat menentukan profil mana yang akan digunakan dengan menjalankan dvc remote modify S3storage profile PROFILE_NAME
kapan saja antara menambahkan remote dan melakukan push DVC terakhir.
# Navigate
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ < data_repo >
# Initialize DVC
dvc init
# Set up remote storage
dvc remote add -d S3storage s3:// < bucket > /projects/ ${PROJECT_NAME} /workspace/software/ < data_repo > _DVC
# Commit new files to git
git add .dvc/.gitignore .dvc/config
git commit -m " Setup DVC "
Direktori yang akan berisi keluaran pipa dibuat sebagai berikut
profiling-recipe/scripts/create_dirs.sh
Alur ini memerlukan barcode_platemap.csv
dan platemap.txt
untuk dijalankan. external_metadata.tsv
opsional juga dapat diberikan untuk anotasi tambahan. Berikut penjelasan dari masing-masing file tersebut
barcode_platemap.csv
- berisi pemetaan antara pelat dan peta pelat. Ada satu file seperti itu per kumpulan data. File tersebut berisi dua kolom yang namanya Assay_Plate_Barcode
dan Plate_Map_Name
, yang tidak boleh diubah. Nama filenya juga tidak boleh diubah. File ini harus berupa file .csv
yang dipisahkan koma.platemap.txt
- berisi pemetaan antara nama sumur dan nama gangguan. Ada satu file seperti itu per peta pelat per batch. Diperlukan dua kolom, satu dengan nama sumur ( A01
, A02
...) disebut well_position
dan yang lainnya dengan pengidentifikasi gangguan. Nama kolom pengidentifikasi gangguan dapat ditentukan pengguna (jika diubah, ubah nama di file config.yml
). Nama file ini dapat diubah. Jika diubah, ubah juga nama di dalam barcode_platemap.csv
. File ini harus berupa file .txt
yang dipisahkan tabexternal_metadata.tsv
- berisi pemetaan antara pengidentifikasi gangguan ke metadata lainnya. File ini opsional. Kolom pengidentifikasi gangguan harus memiliki nama yang sama dengan kolom di platemap.txt
. File ini harus berupa file .tsv
yang dipisahkan tab. Berikut contoh file barcode_platemap.csv
Assay_Plate_Barcode,Plate_Map_Name
plate1,platemap
plate2,platemap
Berikut ini contoh file peta pelat dan berikut contoh file metadata eksternal.
File-file ini harus ditambahkan ke folder yang sesuai sehingga struktur folder terlihat seperti di bawah ini
metadata
├── external_metadata
│ └── external_metadata.tsv
└── platemaps
├── batch1
│ ├── barcode_platemap.csv
│ └── platemap
│ └── platemap.txt
└── batch2
├── barcode_platemap.csv
└── platemap
└── platemap.txt
CONFIG_FILE= " INSERT-CONFIG-FILE-NAME "
cd ~ /work/projects/ ${PROJECT_NAME} /workspace/software/ ${DATA} /
cp profiling-recipe/config_template.yml config_files/ ${CONFIG_FILE} .yml
File konfigurasi berisi semua parameter yang diperlukan oleh berbagai fungsi pycytominer, yang dipanggil oleh pipeline profiling. Untuk menjalankan alur pembuatan profil dengan parameter berbeda, beberapa file konfigurasi dapat dibuat. Setiap parameter dalam file konfigurasi dijelaskan di bawah ini. Semua perubahan yang diperlukan pada file konfigurasi harus dilakukan sebelum pipeline dapat dijalankan.
Jika langkah pertama dari alur pembuatan profil, aggregate
, telah dilakukan (di folder backend
, terdapat file .csv
selain file .sqlite
) maka file .csv
harus disalin ke repositori data atau direktori data . Jika tidak, lewati ke Menjalankan alur pembuatan profil.
Jalankan perintah berikut untuk setiap batch secara terpisah. Perintah ini membuat folder untuk setiap batch, mengompres file .csv
, lalu menyalinnya ke repositori data atau direktori data.
BATCH= " INSERT-BATCH-NAME "
mkdir -p profiles/ ${BATCH}
find ../../backend/ ${BATCH} / -type f -name " *.csv " -exec profiling-recipe/scripts/csv2gz.py {} ;
rsync -arzv --include= " */ " --include= " *.gz " --exclude " * " ../../backend/ ${BATCH} / profiles/ ${BATCH} /
Setelah melakukan perubahan yang diperlukan pada file config.yml
, jalankan alur pembuatan profil sebagai berikut
python profiling-recipe/profiles/profiling_pipeline.py --config config_files/ ${CONFIG_FILE} .yml
Jika ada beberapa file konfigurasi, masing-masing file dapat dijalankan satu demi satu menggunakan perintah di atas.
Catatan: Setiap langkah dalam alur pembuatan profil, menggunakan keluaran dari langkah sebelumnya sebagai masukannya. Oleh karena itu, pastikan semua file masukan yang diperlukan telah dibuat sebelum menjalankan langkah-langkah dalam alur pembuatan profil. Dimungkinkan untuk menjalankan hanya beberapa langkah dalam pipeline dengan hanya menyimpan langkah-langkah tersebut di file konfigurasi.
Jika menggunakan repositori data, dorong profil yang baru dibuat ke DVC dan file .dvc serta file lainnya ke GitHub sebagai berikut
dvc add profiles/ ${BATCH} --recursive
dvc push
git add profiles/ ${BATCH} / * / * .dvc profiles/ ${BATCH} / * / * .gitignore
git commit -m ' add profiles '
git add *
git commit -m ' add files made in profiling '
git push
Jika tidak menggunakan DVC tetapi menggunakan repositori data, dorong semua file baru ke GitHub sebagai berikut
git add *
git commit -m ' add profiles '
git push
Menjalankan alur kerja pembuatan profil dengan semua langkah yang disertakan akan menghasilkan file berikut
Nama file | Keterangan | Lokasi |
---|---|---|
<PLATE>.csv.gz | Profil tingkat sumur yang teragregasi | profil/BATCH/PIRING |
<PLATE>_augmented.csv.gz | Profil beranotasi metadata | profil/BATCH/PIRING |
<PLATE>_normalized.csv.gz | Profil dinormalisasi ke seluruh pelat | profil/BATCH/PIRING |
<PLATE>_normalized_negcon.csv.gz | Profil dinormalisasi ke kontrol negatif | profil/BATCH/PIRING |
<PLATE>_normalized_feature_select_<LEVEL>.csv.gz | Profil normal pelat utuh yang dipilih fitur pada tingkat plate , batch , atau all plates | profil/BATCH/PIRING |
<PLATE>_normalized_feature_select_negcon_<LEVEL>.csv.gz | Profil normalisasi kontrol negatif yang merupakan fitur yang dipilih pada tingkat plate , batch , atau all plates | profil/BATCH/PIRING |
<BATCH>_normalized_feature_select_<LEVEL>.csv.gz | Profil normalisasi pelat utuh bertumpuk tingkat batch yang merupakan fitur yang dipilih pada tingkat batch atau all plates | gct/BATCH |
<BATCH>_normalized_feature_select_<LEVEL>.gct | File .gct dibuat dari file <BATCH>_normalized_feature_select_<LEVEL>.csv.gz | gct/BATCH |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | Profil normalisasi kontrol negatif bertumpuk tingkat batch yang merupakan fitur yang dipilih pada tingkat batch atau all plates | gct/BATCH |
<BATCH>_normalized_feature_select_negcon_<LEVEL>.gct | File .gct dibuat dari file <BATCH>_normalized_feature_select_negcon_<LEVEL>.csv.gz | gct/BATCH |
summary.tsv | Statistik ringkasan | kontrol_kualitas/ringkasan |
<PLATE>_cell_count.png | Jumlah sel pelat | quality_control/peta panas/BATCH/PLATE |
<PLATE>_correlation.png | Korelasi berpasangan antara semua lubang di piring | quality_control/peta panas/BATCH/PLATE |
<PLATE>_position_effect.png | Persen Pencocokan antara masing-masing sumur dengan sumur lainnya pada baris dan kolom yang sama | quality_control/peta panas/BATCH/PLATE |
Ini adalah parameter yang dibutuhkan semua saluran pipa
Nama alur membantu membedakan berbagai file konfigurasi. Itu tidak digunakan oleh pipa itu sendiri.
pipeline : <PIPELINE NAME>
Nama direktori tempat profil akan disimpan. Ini adalah profiles
secara default.
output_dir : profiles
Nama kolom nama sumur di profil aggregated
. Ini adalah Metadata_well_position
secara default.
platemap_well_column : Metadata_well_position
Secara default, fitur CellProfiler diekstraksi dari tiga kompartemen, cells
, cytoplasm
, dan nuclei
. Kompartemen ini tercantum dalam file konfigurasi sebagai berikut
compartments :
- cells
- cytoplasm
- nuclei
Jika kompartemen 'non-kanonik' lainnya ada dalam kumpulan data, maka kompartemen tersebut akan ditambahkan ke daftar di atas sebagai berikut
compartments :
- cells
- cytoplasm
- nuclei
- newcompartment
Catatan: jika nama kompartemen non-kanonik adalah newcompartment
maka fitur dari kompartemen tersebut harus diawali dengan Newcompartment
(hanya karakter pertama yang harus menggunakan huruf kapital). Pipeline akan gagal jika camel case atau format lainnya digunakan untuk nama fitur.
options :
compression : gzip
float_format : " %.5g "
samples : all
compression
- Format kompresi untuk profil .csv
s. Defaultnya adalah gzip
yang saat ini merupakan satu-satunya nilai yang diterima.float_format
- Jumlah digit penting.samples
- Apakah akan melakukan operasi berikut pada semua atau sebagian sampel. Default adalah all
nilai yang saat ini merupakan satu-satunya nilai yang diterima. aggregate
Ini adalah parameter yang diproses oleh fungsi pipeline_aggregate()
yang berinteraksi dengan pycytominer.cyto_utils.cells.SingleCells()
dan menggabungkan profil sel tunggal untuk membuat profil tingkat sumur.
aggregate :
perform : true
plate_column : Metadata_Plate
well_column : Metadata_Well
method : median
fields : all
perform
- Apakah akan melakukan agregasi. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.plate_column
- Nama kolom dengan nama pelat. Standarnya adalah Metadata_Plate
.well_column
- Nama kolom dengan nama sumur. Standarnya adalah Metadata_Well
.method
- Cara melakukan agregasi. Standarnya adalah median
. Juga menerima mean
.fields
- Sel dari bidang pandang mana yang harus dikumpulkan? Standarnya adalah all
. Jika bidang pandang tertentu ingin digabungkan (misalnya 1, 4, 9), dapat dilakukan sebagai berikut fields :
- 1
- 4
- 9
Selain itu, untuk menambahkan seluruh fitur gambar ke profil, daftarkan kategori fitur ke parameter image_feature_categories
. Misalnya
image_feature_catageories :
- Count
- Intensity
annotate
Ini adalah parameter yang diproses oleh fungsi pipeline_annotate()
yang berinteraksi dengan pycytominer.annotate()
dan memberi anotasi pada profil tingkat sumur dengan metadata.
annotate :
perform : true
well_column : Metadata_Well
external :
perform : true
file : <metadata file name>
merge_column : <Column to merge on>
perform
- Apakah akan melakukan anotasi. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.well_column
- Kolom dengan nama sumur di profil gabungan.external
perform
- Apakah akan membubuhi keterangan pada profil dengan metadata eksternal. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.file
- file metadata eksternal yang seharusnya ada di folder metadata/external_metadata/
.merge_column
- Nama kolom pengidentifikasi gangguan yang umum untuk platemap.txt
dan external_metadata.tsv
. normalize
parameter Ini adalah parameter yang diproses oleh fungsi pipeline_normalize()
yang berinteraksi dengan pycytominer.normalize()
dan menormalkan semua sumur ke seluruh pelat.
normalize :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- Apakah akan melakukan normalisasi. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.method
- Metode mana yang digunakan untuk normalisasi. Standarnya adalah mad_robustize
. Opsi lain tersedia di pycytominer, seperti, standardize
, robustize
, dan spherize
.features
- Nama kolom pengukuran fitur. Defaultnya adalah infer
, yang menyimpulkan fitur CellProfiler dari profil yang diberi anotasi.mad_robustize_fudge_factor
- Parameter faktor fudge jika metode normalisasi adalah mad_robustize
.image_features
: Apakah seluruh fitur gambar ada di profil beranotasi. Standarnya adalah true
. Setel ke false
jika fitur gambar tidak ada.normalize_negcon
Ini adalah parameter yang diproses oleh fungsi pipeline_normalize()
yang berinteraksi dengan pycytominer.normalize()
dan menormalkan semua lubang kecil ke kontrol negatif.
normalize_negcon :
perform : true
method : mad_robustize
features : infer
mad_robustize_fudge_factor : 0
image_features : true
perform
- Apakah akan melakukan normalisasi. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.method
- Metode mana yang digunakan untuk normalisasi. Standarnya adalah mad_robustize
. Opsi lain tersedia di pycytominer, seperti, standardize
, robustize
, dan spherize
.features
- Nama kolom pengukuran fitur. Defaultnya adalah infer
, yang menyimpulkan fitur CellProfiler dari profil yang diberi anotasi.mad_robustize_fudge_factor
- Parameter faktor fudge jika metode normalisasi adalah mad_robustize
.image_features
: Apakah seluruh fitur gambar ada di profil beranotasi. Standarnya adalah true
. Setel ke false
jika fitur gambar tidak ada. feature_select
parameter Ini adalah parameter yang diproses oleh fungsi pipeline_feature_select()
yang berinteraksi dengan pycytominer.feature_select()
dan memilih fitur di profil yang dinormalisasi seluruh pelat.
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- Apakah akan melakukan pemilihan fitur. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.features
- Nama kolom pengukuran fitur. Defaultnya adalah infer
, yang menyimpulkan fitur CellProfiler dari profil yang dinormalisasi.level
- Tingkat di mana pemilihan fitur harus dilakukan. Standarnya adalah batch
. Pemilihan fitur juga dapat dilakukan pada tingkat batch
dan all
pelat.gct
- Apakah akan membuat profil bertumpuk tingkat batch dan file .gct
. Standarnya false
. Profil bertumpuk dan file .gct
dibuat hanya jika level
bersifat batch
atau all
.image_features
: Apakah seluruh fitur gambar ada di seluruh profil pelat yang dinormalisasi. Standarnya adalah true
. Setel ke false
jika fitur gambar tidak ada.operations
- Daftar operasi pemilihan fitur. variance_threshold
menghapus fitur yang memiliki varians di bawah ambang batas, di seluruh lubang pada pelat. correlation_threshold
menghapus fitur yang berlebihan. drop_na_columns
menghapus fitur dengan nilai NaN
. blocklist
menghapus fitur yang merupakan bagian dari daftar blokir fitur.feature_select_negcon
Ini adalah parameter yang diproses oleh fungsi pipeline_feature_select()
yang berinteraksi dengan pycytominer.feature_select()
dan memilih fitur di profil yang dinormalisasi ke kontrol negatif.
feature_select_negcon :
perform : true
features : infer
level : batch
gct : false
image_features : true
operations :
- variance_threshold
- correlation_threshold
- drop_na_columns
- blocklist
perform
- Apakah akan melakukan pemilihan fitur. Standarnya adalah true
. Setel ke false
jika ini tidak boleh dilakukan.features
- Nama kolom pengukuran fitur. Defaultnya adalah infer
, yang menyimpulkan fitur CellProfiler dari profil yang dinormalisasi.level
- Tingkat di mana pemilihan fitur harus dilakukan. Standarnya adalah batch
. Pemilihan fitur juga dapat dilakukan pada tingkat batch
dan all
pelat.gct
- Apakah akan membuat profil bertumpuk tingkat batch dan file .gct
. Standarnya false
. Profil bertumpuk dan file .gct
dibuat hanya jika level
bersifat batch
atau all
.image_features
: Apakah seluruh fitur gambar ada di profil negcon yang dinormalisasi. Standarnya adalah true
. Setel ke false
jika fitur gambar tidak ada.operations
- Daftar operasi pemilihan fitur. variance_threshold
menghapus fitur yang memiliki varians di bawah ambang batas, di seluruh lubang pada pelat. correlation_threshold
menghapus fitur yang berlebihan. drop_na_columns
menghapus fitur dengan nilai NaN
. blocklist
menghapus fitur yang merupakan bagian dari daftar blokir fitur. quality_control
Parameter ini menentukan jenis metrik dan angka kendali mutu yang akan dihasilkan. summary
menghasilkan tabel dengan statistik ringkasan sementara heatmap
menghasilkan tiga peta panas, masing-masing menampilkan metrik kontrol kualitas yang berbeda.
quality_control :
perform : true
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
heatmap :
perform : true
perform
- Apakah akan menghasilkan metrik atau angka kendali mutu. Standarnya adalah true
. Setel ke false
jika ini tidak dibuat. Ada dua jenis metrik qc berbeda yang dapat dihasilkan. summary
membuat summary.tsv
dengan ringkasan statistik setiap pelat dari setiap batch. heatmap
menghasilkan tiga peta panas - jumlah sel vs. peta pelat, korelasi antara lubang kecil dan efek posisi vs. peta pelat.
summary :
perform : true
row : Metadata_Row
column : Metadata_Col
perform
- Apakah akan membuat file ringkasan atau tidak. Standarnya adalah true
. Setel ke false
jika file ini tidak dibuat.row
- Bidang nama baris di load_data.csv
.column
- Bidang nama kolom load_data.csv
. heatmap :
perform : true
perform
- Apakah akan menghasilkan peta panas atau tidak. Standarnya adalah true
. Setel ke false
jika peta panas tidak dibuat. batch
dan plates
Parameter ini menentukan nama batch dan pelat yang akan diproses.
batch : <BATCH NAME>
plates :
- name : <PLATE NAME>
process : true
process : true
batch
- Nama batch yang akan diproses.plates
-name
- Nama pelat yang akan diproses.process
- Apakah akan memproses pelat. Standarnya adalah true
. Setel ke false
jika pelat ini tidak boleh diproses.process
- Apakah akan memproses batch. Standarnya adalah true
. Setel ke false
jika kumpulan ini tidak boleh diproses.git submodule update --init --recursive
dvc pull
Informasi tambahan tentang penggunaan DVC yang mungkin berguna bagi Anda:
Saat menangani file besar atau folder besar, JANGAN menambahkannya ke GH dengan git add
. Sebagai gantinya, tambahkan ke DVC dengan dvc add
. Ini mengunggah file/folder besar ke S3 dan membuat penunjuk ke unggahan tersebut di S3 di repo GH (yang kami lacak, bukan file/folder itu sendiri). Itu juga memperbarui .gitignore sehingga GH tidak melacak file/folder besar itu sendiri. Kemudian dvc push
untuk mengunggah file ke S3.
# Add a file or folder to DVC
dvc add LARGEFILE.csv
dvc push
Kemudian tambahkan versi .dvc dari file/folder yang dibuat ke github beserta .gitignore. Melakukan.
git add LARGEFILE.csv.dvc
git add .gitignore
git commit -m " add largefile "
# Download ALL data stored by DVC in S3
# Only do this if you really, truly want ALL the data
dvc pull
# Download a specific file stored by DVC in S3
dvc get https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv
DVC membuat nama file menjadi hash di S3. Untuk melihat hash file (sehingga Anda dapat menemukannya langsung di S3) untuk file DVC tertentu, tambahkan tanda --show-url ke perintah get
:
dvc get --show-url https://github.com/ORGANIZATION/DATA-REPO.git relative/path/to/LARGEFILE.csv