如果您需要版本並處理大量文件,請查看我們的新產品Datachain(並給它一個!)。請通過[email protected]與我們聯繫,討論商業解決方案並支持AI可重複性和數據管理方案。
網站•文檔•博客•教程•相關技術•DVC的工作原理•VS代碼擴展•安裝•貢獻•社區和支持
數據版本控制或DVC是命令行工具,VS代碼擴展程序可幫助您開發可重複的機器學習項目:
請閱讀我們的命令參考以獲取完整列表。
一個常見的CLI工作流程包括:
任務 | 終端 |
---|---|
跟踪數據 | $ git add train.py params.yaml $ dvc add images/ |
連接代碼和數據 | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py $ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
進行更改和實驗 | $ dvc exp run -n exp-baseline $ vi train.py $ dvc exp run -n exp-code-change |
比較並選擇實驗 | $ dvc exp show $ dvc exp apply exp-baseline |
共享代碼 | $ git add . $ git commit -m 'The baseline model' $ git push |
共享數據和ML模型 | $ dvc remote add myremote -d s3://mybucket/image_cnn $ dvc push |
我們鼓勵您閱讀我們的入門文檔,以更好地了解DVC的功能以及如何適合您的場景。
描述主要DVC特徵的最接近的類比是:
Git照常使用存儲和版本代碼(包括DVC Meta-Files作為數據的佔位符)。 DVC將數據和模型文件無縫存儲在Git之外的緩存中,同時保留幾乎與存儲庫一樣的用戶體驗。要共享和備份數據緩存,DVC支持多個遠程存儲平台 - 任何云(S3,Azure,Google Cloud等)或本地網絡存儲(例如,通過SSH)。
DVC管道(計算圖)將代碼和數據連接在一起。他們指定產生模型所需的所有步驟:輸入依賴項,包括代碼,數據,運行命令;和要保存的輸出信息。
最後但並非最不重要的一點是,DVC實驗版本可以讓您準備並運行大量實驗。他們的結果可以根據超參數和指標進行過濾和比較,並用多個圖可視化。
要將DVC用作VS代碼IDE的GUI,請從市場上安裝DVC擴展。它目前具有實驗跟踪和數據管理,以及更多功能(數據管道支持等)即將推出!
注意:您必須在系統上分別安裝Core DVC(如下所述)。如果需要,擴展程序將指導您。
安裝DVC有幾種方法:在VS代碼中;使用snap
, choco
, brew
, conda
, pip
;或使用特定於操作系統的軟件包。完整的說明可在此處提供。
snap install dvc --classic
這對應於最新的標記版本。添加--beta
,用於最新標記的發行候選者,或 - 最新main
版本的--edge
。
choco install dvc
brew install dvc
conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
根據您計劃保留和共享數據的遠程存儲類型,您可能需要安裝可選依賴項:DVC-S3,DVC-azure,DVC-Grive,DVC-Grive,DVC-GS,DVC-GS,DVC-OSS,DVC -SSH。
pip install dvc
根據您計劃使用並共享數據的遠程存儲類型,您可能需要指定其中一種可選依賴項: s3
, gs
, azure
, oss
, ssh
。或all
包括所有這些。該命令應該像這樣: pip install 'dvc[s3]'
(在這種情況下,將自動安裝諸如boto3
之類的AWS S3依賴項)。
要安裝開發版本,請運行:
pip install git+git://github.com/iterative/dvc
可用於Linux,Windows和Mac的獨立包裝。最新版本的軟件包可以在GitHub版本頁面上找到。
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
歡迎捐款!請參閱我們的貢獻指南以獲取更多詳細信息。感謝我們所有的貢獻者!
該項目是在Apache許可證版本2.0下分發的(請參閱項目根中的許可證文件)。
通過向該項目提交拉的請求,您同意根據Apache許可證2.0版將其捐款許可給該項目。
迭代, DVC:數據版本控制 - 數據和模型的GIT (2020)doi:10.5281/Zenodo.012345。
巴拉克(A. 。