dvc Download - dvc Code source Télécharger

dvc

Autre code source

3.57.0

Télécharger

Consultez notre nouveau produit Datachain (et donnez-lui un!) Si vous avez besoin de version et de traiter un grand nombre de fichiers. Contactez-nous à [email protected] pour discuter des solutions commerciales et du support pour les scénarios de reproductibilité et de gestion des données de l'IA.

Site Web • Docs • Blog • Tutoriel • Technologies connexes • Comment fonctionne le DVC • Extension du code vs • Installation • Contribution • Communauté et support

Tests du GHA

Le contrôle de la version de données ou DVC est un outil de ligne de commande et une extension de code vs pour vous aider à développer des projets d'apprentissage automatique reproductibles:

Version vos données et modèles. Conservez-les dans votre stockage cloud, mais conservez leurs informations de version dans votre dépôt git.
Itérer rapidement avec des pipelines légers. Lorsque vous apportez des modifications, exécutez uniquement les étapes affectées par ces modifications.
Suivez les expériences dans votre dépôt GIT local (aucun serveur nécessaire).
Comparez toutes les données, code, paramètres, modèles ou parcelles de performances.
Partagez des expériences et reproduisez automatiquement l'expérience de quiconque.

Démarrage rapide

Veuillez lire notre référence de commande pour une liste complète.

Un flux de travail CLI commun comprend:

Tâche	Terminal
Suivre les données	`$ git add train.py params.yaml` `$ dvc add images/`
Connectez le code et les données	`$ dvc stage add -n featurize -d images/ -o features/ python featurize.py` `$ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py`
Apporter des modifications et expérimenter	`$ dvc exp run -n exp-baseline` `$ vi train.py` `$ dvc exp run -n exp-code-change`
Comparez et sélectionnez des expériences	`$ dvc exp show` `$ dvc exp apply exp-baseline`
Code de partage	`$ git add .` `$ git commit -m 'The baseline model'` `$ git push`
Partagez les données et les modèles ML	`$ dvc remote add myremote -d s3://mybucket/image_cnn` `$ dvc push`

Comment fonctionne DVC

Nous vous encourageons à lire nos documents de démarrage pour mieux comprendre ce que fait DVC et comment il peut s'adapter à vos scénarios.

Les analogies les plus proches pour décrire les principales caractéristiques du DVC sont les suivantes:

Git pour les données : stocker et partager des artefacts de données (comme Git-LFS mais sans serveur) et des modèles, les connectant avec un référentiel GIT. La gestion des données rencontre Gitops!
MakeFiles pour ML: décrit comment les données ou les artefacts du modèle sont construits à partir d'autres données et code dans un format standard. Vous pouvez désormais version à vos pipelines de données avec GIT.
Suivi de l'expérience locale: transformez votre machine en une plate-forme de gestion d'expériences ML et collaborez avec d'autres en utilisant l'hébergement GIT existant (Github, Gitlab, etc.).

Git est utilisé comme d'habitude pour stocker et le code de version (y compris les méta-fichiers DVC comme espaces réservés pour les données). DVC stocke les données et les fichiers de modèle de manière transparente dans un cache en dehors de Git, tout en préservant presque la même expérience utilisateur que s'ils étaient dans le référentiel. Pour partager et sauvegarder le cache de données , DVC prend en charge plusieurs plates-formes de stockage à distance - tout cloud (S3, Azure, Google Cloud, etc.) ou le stockage réseau sur site (via SSH, par exemple).

Les pipelines DVC (graphiques de calcul) connectent le code et les données ensemble. Ils spécifient toutes les étapes requises pour produire un modèle: dépendances d'entrée, y compris le code, les données, les commandes à exécuter; et les informations de sortie à enregistrer.

Enfin et surtout, le versioning de l'expérience DVC vous permet de préparer et d'exécuter un grand nombre d'expériences. Leurs résultats peuvent être filtrés et comparés sur la base d'hyperparamètres et de mesures, et visualisés avec plusieurs parcelles.

Extension de code contre le code

Pour utiliser DVC comme GUI directement à partir de votre IDE VS Code, installez l'extension DVC à partir du marché. Il dispose actuellement du suivi des expériences et de la gestion des données, et plus de fonctionnalités (support de pipeline de données, etc.) arrivent bientôt!

Remarque: vous devrez installer des DVC de base sur votre système séparément (comme détaillé ci-dessous). L'extension vous guidera si nécessaire.

Installation

Il existe plusieurs façons d'installer DVC: dans VS Code; Utilisation de snap , choco , brew , conda , pip ; ou avec un package spécifique au système d'exploitation. Des instructions complètes sont disponibles ici.

Snapcraft (Linux)

snap install dvc --classic

Cela correspond à la dernière version taguée. Ajouter --beta pour le dernier candidat de version taguée, ou --edge pour la dernière version main .

Chocolatey (fenêtres)

choco install dvc

Brew (Mac OS)

brew install dvc

Anaconda (n'importe quelle plate-forme)

conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc

Selon le type de stockage à distance que vous prévoyez d'utiliser pour conserver et partager vos données, vous devrez peut-être installer des dépendances facultatives: DVC-S3, DVC-Azure, DVC-GDrive, DVC-GS, DVC-OSS, DVC-SSH.

PYPI (Python)

pip install dvc

Selon le type de stockage à distance que vous prévoyez d'utiliser pour conserver et partager vos données, vous devrez peut-être spécifier l'une des dépendances facultatives: s3 , gs , azure , oss , ssh . Ou all pour les inclure tous. La commande doit ressembler à ceci: pip install 'dvc[s3]' (dans ce cas, les dépendances AWS S3 telles que boto3 seront installées automatiquement).

Pour installer la version de développement, exécutez:

pip install git+git://github.com/iterative/dvc

Package (spécifique à la plate-forme)

Des packages autonomes pour Linux, Windows et Mac sont disponibles. La dernière version des packages peut être trouvée sur la page GitHub Release.

Ubuntu / Debian (Deb)

sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc

Fedora / Centos (RPM)

sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc

Contributif

Les contributions sont les bienvenues! Veuillez consulter notre guide de contribution pour plus de détails. Merci à tous nos contributeurs!

Communauté et soutien

Gazouillement
Forum
Chat de discorde
E-mail
Liste de diffusion

Droit d'auteur

Ce projet est distribué sous la version 2.0 de la licence Apache (voir le fichier de licence dans la racine du projet).

En soumettant une demande de traction à ce projet, vous acceptez de concéder à votre contribution sous la version 2.0 de la licence Apache à ce projet.

Citation

Itératif, DVC: Contrôle des versions de données - Git pour les données et les modèles (2020) doi: 10.5281 / zenodo.012345.

Barrak, A., Eghan, EE et Adams, B. Sur la co-évolution des pipelines ML et du code source - Étude empirique des projets DVC, dans les actes de la 28e Conférence internationale de l'IEEE sur l'analyse, l'évolution et la réingénierie, Saner 2021 .

Développer

Informations supplémentaires

Version 3.57.0
Type Autre code source
Date de mise à jour 2025-02-26
taille 835.54KB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout