Проверьте наш новый DataChain продукта (и дайте ему!), Если вам нужно вернуть и обработать большое количество файлов. Свяжитесь с нами по адресу [email protected], чтобы обсудить коммерческие решения и поддержку сценариев воспроизводимости ИИ и управления данными.
Веб -сайт • Документы • Блог • Учебное пособие • Связанные технологии • Как работает DVC.
Управление версиями данных или DVC - это инструмент командной строки и расширение кода VS, чтобы помочь вам разработать воспроизводимые проекты машинного обучения:
Пожалуйста, прочитайте нашу командную ссылку для полного списка.
Общий рабочий процесс CLI включает в себя:
Задача | Терминал |
---|---|
Отслеживать данные | $ git add train.py params.yaml $ dvc add images/ |
Подключить код и данные | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py $ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
Вносить изменения и экспериментировать | $ dvc exp run -n exp-baseline $ vi train.py $ dvc exp run -n exp-code-change |
Сравните и выберите эксперименты | $ dvc exp show $ dvc exp apply exp-baseline |
Поделиться кодом | $ git add . $ git commit -m 'The baseline model' $ git push |
Поделиться данными и моделями ML | $ dvc remote add myremote -d s3://mybucket/image_cnn $ dvc push |
Мы призываем вас прочитать наши документы «Начало работы», чтобы лучше понять, что делает DVC и как он может соответствовать вашим сценариям.
Самые близкие аналогии для описания основных функций DVC - это:
GIT используется, как обычно, для хранения и кода версии (включая мета-билет DVC в качестве заполнителей для данных). DVC хранит данные и файлы моделей плавно в кэше за пределами GIT, сохраняя при этом почти тот же пользовательский опыт, что и в репо. Чтобы поделиться и резервным образом заполнение кеша данных , DVC поддерживает несколько удаленных платформ хранения - любое облако (S3, Azure, Google Cloud и т. Д.) Или локальное сетевое хранилище (например, через SSH).
DVC Pipelines (вычислительные графики) Подключите код и данные вместе. Они указывают все шаги, необходимые для создания модели: входные зависимости, включая код, данные, команды для запуска; и вывод информации, которая будет сохранена.
И последнее, но не менее важное, DVC Experiment Wrersing позволяет подготовить и запустить большое количество экспериментов. Их результаты могут быть отфильтрованы и сравниваются на основе гиперпараметров и метрик, а также визуализированы с несколькими участками.
Чтобы использовать DVC в качестве графического интерфейса прямо из вашей IDE VS Code, установите расширение DVC с рынка. В настоящее время он включает отслеживание экспериментов и управление данными, а также больше функций (поддержка конвейера данных и т. Д.) Скоро появятся!
Примечание: вам придется установить DVC Core DVC отдельно (как подробно описано ниже). Расширение направит вас, если это необходимо.
Есть несколько способов установить DVC: в VS -коде; Использование snap
, choco
, brew
, conda
, pip
; или с ОС-специфическим пакетом. Полные инструкции доступны здесь.
snap install dvc --classic
Это соответствует последнему выпуску с меткой. Добавить --beta
для последнего кандидата в релиз с тегами, или --edge
для последней main
версии.
choco install dvc
brew install dvc
conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
В зависимости от удаленного типа хранения, который вы планируете использовать для сохранения и обмена вашими данными, вам может потребоваться установить дополнительные зависимости: DVC-S3, DVC-AZURE, DVC-GDRIVE, DVC-GS, DVC-OSS, DVC-SSH.
pip install dvc
В зависимости от удаленного типа хранения, который вы планируете использовать для сохранения и обмена вашими данными, вам может потребоваться указать одну из дополнительных зависимостей: s3
, gs
, azure
, oss
, ssh
. Или all
, чтобы включить их всех. Команда должна выглядеть следующим образом: pip install 'dvc[s3]'
(в данном случае зависимости AWS S3, такие как boto3
будут установлены автоматически).
Чтобы установить версию разработки, запустите:
pip install git+git://github.com/iterative/dvc
Автономные пакеты для Linux, Windows и Mac доступны. Последнюю версию пакетов можно найти на странице Github Relesess.
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
Взносы приветствуются! Пожалуйста, смотрите наше руководство для получения более подробной информации. Спасибо всем нашим участникам!
Этот проект распространяется в соответствии с версией лицензии Apache лицензии 2.0 (см. Файл лицензии в Project Root).
Отправляя запрос на привлечение в этот проект, вы соглашаетесь лицензировать свой вклад в соответствии с лицензией Apache лицензии 2.0 в этот проект.
Итеративный, DVC: управление версиями данных - GIT для данных и моделей (2020) DOI: 10.5281/Zenodo.012345.
Баррак, А., Эган, Э. И. и Адамс, Б. О совместной эволюции трубопроводов и исходного кода - эмпирическое исследование проектов DVC, в процессах 28 -й Международной конференции IEEE по анализу программного обеспечения, эволюции и реинжинирингу, Saner 2021 ..