많은 파일을 버전하고 처리 해야하는 경우 신제품 Datachain (그리고 제공하십시오!)을 확인하십시오. [email protected]로 문의하여 상업적 솔루션 및 AI 재현성 및 데이터 관리 시나리오에 대한 지원에 대해 논의하십시오.
웹 사이트 • 문서 • 블로그 • 튜토리얼 • 관련 기술 • DVC 작동 방식 • 대 코드 확장 • 설치 • 기여 • 커뮤니티 및 지원
데이터 버전 제어 또는 DVC는 재현 가능한 기계 학습 프로젝트를 개발하는 데 도움이되는 명령 줄 도구 및 대 코드 확장입니다.
전체 목록은 명령 참조를 읽으십시오.
일반적인 CLI 워크 플로에는 다음이 포함됩니다.
일 | 단말기 |
---|---|
추적 데이터 | $ git add train.py params.yaml $ dvc add images/ |
코드 및 데이터를 연결하십시오 | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py $ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
변경하고 실험하십시오 | $ dvc exp run -n exp-baseline $ vi train.py $ dvc exp run -n exp-code-change |
실험을 비교하고 선택하십시오 | $ dvc exp show $ dvc exp apply exp-baseline |
코드를 공유하십시오 | $ git add . $ git commit -m 'The baseline model' $ git push |
데이터 및 ML 모델을 공유합니다 | $ dvc remote add myremote -d s3://mybucket/image_cnn $ dvc push |
DVC가하는 일과 시나리오에 어떻게 적합한 지 더 잘 이해하기 위해 시작 문서를 읽어 보시기 바랍니다.
주요 DVC 기능을 설명하는 가장 가까운 유사성은 다음과 같습니다.
GIT는 평소와 같이 저장 및 버전 코드 (데이터의 자리 표시 자로 DVC 메타 파일 포함)에 사용됩니다. DVC는 GIT 외부 캐시에 데이터 및 모델 파일을 매끄럽게 저장하는 한편, 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 마치 리포지토리에있는 것처럼 거의 동일한 사용자 경험을 보존합니다. DVC는 데이터 캐시를 공유하고 백업하기 위해 여러 원격 스토리지 플랫폼 (S3, Azure, Google Cloud 등) 또는 온 프레미스 네트워크 스토리지 (예 : SSH를 통해)를 지원합니다.
DVC 파이프 라인 (계산 그래프) 코드와 데이터를 함께 연결합니다. 모델을 생성하는 데 필요한 모든 단계를 지정합니다. 코드, 데이터, 실행 명령을 포함한 입력 종속성; 저장할 출력 정보.
마지막으로, DVC 실험 버전을 사용하면 많은 실험을 준비하고 실행할 수 있습니다. 그들의 결과는 과복 미터와 메트릭을 기준으로 여과하고 비교할 수 있으며 여러 플롯으로 시각화 할 수 있습니다.
VS Code IDE에서 DVC를 GUI로 사용하려면 시장에서 DVC 확장을 설치하십시오. 현재 실험 추적 및 데이터 관리 기능이 있으며 더 많은 기능 (데이터 파이프 라인 지원 등)이 곧 출시 될 예정입니다!
참고 : 시스템에 별도로 Core DVC를 설치해야합니다 (아래에 자세히 설명). 확장자는 필요한 경우 안내합니다.
DVC를 설치하는 방법에는 여러 가지가 있습니다 : vs code; snap
, choco
, brew
, conda
, pip
사용; 또는 OS 특이 적 패키지로. 전체 지침은 여기에서 제공됩니다.
snap install dvc --classic
이것은 최신 태그 릴리스에 해당합니다. 최신 태그 릴리스 후보에 --beta
추가하거나 최신 main
버전에 대한 --edge
하십시오.
choco install dvc
brew install dvc
conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
데이터를 유지하고 공유하는 데 사용하려는 원격 저장소 유형에 따라 DVC-S3, DVC-AZURE, DVC-GDRIVE, DVC-GS, DVC-SOSS, DVC-SSH 등 선택 의존성을 설치해야 할 수도 있습니다.
pip install dvc
데이터를 유지하고 공유하는 데 사용할 원격 스토리지 유형에 따라 선택적인 종속성 중 하나 인 s3
, gs
, azure
, oss
, ssh
지정해야 할 수도 있습니다. 또는 all
그들 모두를 포함시킵니다. 명령은 다음과 같아야합니다. pip install 'dvc[s3]'
(이 경우 boto3
과 같은 AWS S3 종속성이 자동으로 설치됩니다).
개발 버전을 설치하려면 실행하십시오.
pip install git+git://github.com/iterative/dvc
Linux, Windows 및 Mac 용 자체 포함 패키지를 사용할 수 있습니다. 최신 버전의 패키지는 Github 릴리스 페이지에서 찾을 수 있습니다.
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
기부금을 환영합니다! 자세한 내용은 기고 안내서를 참조하십시오. 우리의 모든 기고자들에게 감사합니다!
이 프로젝트는 Apache 라이센스 버전 2.0 (프로젝트 루트의 라이센스 파일 참조)에 따라 배포됩니다.
이 프로젝트에 풀 요청을 제출함으로써 귀하는이 프로젝트에 대한 Apache 라이센스 버전 2.0에 따라 귀하의 기부금을 라이센스에 동의합니다.
반복, DVC : 데이터 버전 제어 - 데이터 및 모델 용 Git (2020) DOI : 10.5281/Zenodo.012345.
Barrak, A., Eghan, EE 및 Adams, B. ML 파이프 라인 및 소스 코드의 공동 진화 - DVC 프로젝트의 경험적 연구, 28 번째 IEEE 국제 소프트웨어 분석, 진화 및 리엔지니어링 회의, Saner 2021 미국 하와이.