如果您需要版本并处理大量文件,请查看我们的新产品Datachain(并给它一个!)。请通过[email protected]与我们联系,讨论商业解决方案并支持AI可重复性和数据管理方案。
网站•文档•博客•教程•相关技术•DVC的工作原理•VS代码扩展•安装•贡献•社区和支持
数据版本控制或DVC是命令行工具,VS代码扩展程序可帮助您开发可重复的机器学习项目:
请阅读我们的命令参考以获取完整列表。
一个常见的CLI工作流程包括:
任务 | 终端 |
---|---|
跟踪数据 | $ git add train.py params.yaml $ dvc add images/ |
连接代码和数据 | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py $ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
进行更改和实验 | $ dvc exp run -n exp-baseline $ vi train.py $ dvc exp run -n exp-code-change |
比较并选择实验 | $ dvc exp show $ dvc exp apply exp-baseline |
共享代码 | $ git add . $ git commit -m 'The baseline model' $ git push |
共享数据和ML模型 | $ dvc remote add myremote -d s3://mybucket/image_cnn $ dvc push |
我们鼓励您阅读我们的入门文档,以更好地了解DVC的功能以及如何适合您的场景。
描述主要DVC特征的最接近的类比是:
Git照常使用存储和版本代码(包括DVC Meta-Files作为数据的占位符)。 DVC将数据和模型文件无缝存储在Git之外的缓存中,同时保留几乎与存储库一样的用户体验。要共享和备份数据缓存,DVC支持多个远程存储平台 - 任何云(S3,Azure,Google Cloud等)或本地网络存储(例如,通过SSH)。
DVC管道(计算图)将代码和数据连接在一起。他们指定产生模型所需的所有步骤:输入依赖项,包括代码,数据,运行命令;和要保存的输出信息。
最后但并非最不重要的一点是,DVC实验版本可以让您准备并运行大量实验。他们的结果可以根据超参数和指标进行过滤和比较,并用多个图可视化。
要将DVC用作VS代码IDE的GUI,请从市场上安装DVC扩展。它目前具有实验跟踪和数据管理,以及更多功能(数据管道支持等)即将推出!
注意:您必须在系统上分别安装Core DVC(如下所述)。如果需要,扩展程序将指导您。
安装DVC有几种方法:在VS代码中;使用snap
, choco
, brew
, conda
, pip
;或使用特定于操作系统的软件包。完整的说明可在此处提供。
snap install dvc --classic
这对应于最新的标记版本。添加--beta
,用于最新标记的发行候选者,或 - 最新main
版本的--edge
。
choco install dvc
brew install dvc
conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
根据您计划保留和共享数据的远程存储类型,您可能需要安装可选依赖项:DVC-S3,DVC-azure,DVC-Grive,DVC-Grive,DVC-GS,DVC-GS,DVC-OSS,DVC-SSH。
pip install dvc
根据您计划使用并共享数据的远程存储类型,您可能需要指定其中一种可选依赖项: s3
, gs
, azure
, oss
, ssh
。或all
包括所有这些。该命令应该像这样: pip install 'dvc[s3]'
(在这种情况下,将自动安装诸如boto3
之类的AWS S3依赖项)。
要安装开发版本,请运行:
pip install git+git://github.com/iterative/dvc
可用于Linux,Windows和Mac的独立包装。最新版本的软件包可以在GitHub版本页面上找到。
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
欢迎捐款!请参阅我们的贡献指南以获取更多详细信息。感谢我们所有的贡献者!
该项目是在Apache许可证版本2.0下分发的(请参阅项目根中的许可证文件)。
通过向该项目提交拉的请求,您同意根据Apache许可证2.0版将其捐款许可给该项目。
迭代, DVC:数据版本控制 - 数据和模型的GIT (2020)doi:10.5281/Zenodo.012345。
巴拉克(A. 。