تحقق من منتجنا الجديد Datachain (وقدمه!) إذا كنت بحاجة إلى إصدار عدد كبير من الملفات ومعالجة عدد كبير من الملفات. اتصل بنا على [email protected] لمناقشة الحلول التجارية ودعم سيناريوهات استنساخ AI وإدارة البيانات.
موقع الويب • المستندات • المدونة • البرنامج التعليمي • التقنيات ذات الصلة • كيفية عمل DVC • تمديد الكود • التثبيت • المساهمة • المجتمع والدعم
التحكم في إصدار البيانات أو DVC هو أداة سطر الأوامر وملحق VS Code لمساعدتك في تطوير مشاريع التعلم الآلي القابلة للتكرار:
يرجى قراءة مرجع الأمر الخاص بنا للحصول على قائمة كاملة.
يشمل سير عمل CLI المشترك:
مهمة | صالة |
---|---|
تتبع البيانات | $ git add train.py params.yaml $ dvc add images/ |
قم بتوصيل الكود والبيانات | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py $ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
قم بإجراء التغييرات والتجربة | $ dvc exp run -n exp-baseline $ vi train.py $ dvc exp run -n exp-code-change |
قارن واختيار التجارب | $ dvc exp show $ dvc exp apply exp-baseline |
رمز مشاركة | $ git add . $ git commit -m 'The baseline model' $ git push |
مشاركة البيانات ونماذج ML | $ dvc remote add myremote -d s3://mybucket/image_cnn $ dvc push |
نحن نشجعك على قراءة مستندات Get Get Series لفهم ما تفعله DVC بشكل أفضل وكيف يمكن أن تناسب سيناريوهاتك.
أقرب التشبيهات لوصف ميزات DVC الرئيسية هي:
يتم استخدام GIT كالمعتاد لتخزين كود وإصدار (بما في ذلك ملفات META DVC كأصحاب نائب للبيانات). تقوم DVC بتخزين البيانات وملفات النماذج بسلاسة في ذاكرة التخزين المؤقت خارج GIT ، مع الحفاظ على تجربة المستخدم نفسها تقريبًا كما لو كانت في الريبو. لمشاركة ودعم ذاكرة التخزين المؤقت للبيانات ، تدعم DVC منصات التخزين عن بُعد متعددة - أي سحابة (S3 ، Azure ، Google Cloud ، إلخ) أو تخزين الشبكة المحلية (عبر SSH ، على سبيل المثال).
تقوم خطوط أنابيب DVC (الرسوم البيانية الحسابية) بتوصيل التعليمات البرمجية والبيانات معًا. يحددون جميع الخطوات المطلوبة لإنتاج نموذج: تبعيات الإدخال بما في ذلك التعليمات البرمجية والبيانات والأوامر التي يتم تشغيلها ؛ وإخراج المعلومات المراد حفظها.
أخيرًا وليس آخرًا ، يتيح لك الإصدار DVC Experience إعداد وتشغيل عدد كبير من التجارب. يمكن ترشيح نتائجها ومقارنتها بناءً على مقاييس ومقاييس عالية ، وتصورها مع مؤامرات متعددة.
لاستخدام DVC باعتباره واجهة المستخدم الرسومية مباشرة من VS Code IDE ، قم بتثبيت ملحق DVC من السوق. يتميز حاليًا بتتبع التجربة وإدارة البيانات ، والمزيد من الميزات (دعم خط أنابيب البيانات ، وما إلى ذلك) ستأتي قريبًا!
ملاحظة: سيتعين عليك تثبيت Core DVC على نظامك بشكل منفصل (كما هو موضح أدناه). سوف يوجهك الامتداد إذا لزم الأمر.
هناك عدة طرق لتثبيت DVC: في VS Code ؛ باستخدام snap
، choco
، brew
، conda
، pip
؛ أو مع حزمة خاصة بنظام التشغيل. التعليمات الكاملة متوفرة هنا.
snap install dvc --classic
هذا يتوافق مع أحدث الإصدار الموسومة. أضف --beta
للحصول على أحدث مرشح الإصدار الموسومة ، أو --edge
للحصول على أحدث إصدار main
.
choco install dvc
brew install dvc
conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
اعتمادًا على نوع التخزين عن بُعد الذي تخطط لاستخدامه للاحتفاظ بمشاركة بياناتك ، قد تحتاج إلى تثبيت تبعيات اختيارية: DVC-S3 ، DVC-Azure ، DVC-GDRIVE ، DVC-GS ، DVC-OSS ، DVC-SSH.
pip install dvc
اعتمادًا على نوع التخزين عن بُعد الذي تخطط لاستخدامه للاحتفاظ بمشاركة بياناتك ، قد تحتاج إلى تحديد واحدة من التبعيات الاختيارية: s3
، gs
، azure
، oss
، ssh
. أو all
لتضمينهم جميعا. يجب أن يبدو الأمر هكذا: pip install 'dvc[s3]'
(في هذه الحالة ، سيتم تثبيت تبعيات AWS S3 مثل boto3
تلقائيًا).
لتثبيت إصدار التطوير ، قم بتشغيل:
pip install git+git://github.com/iterative/dvc
تتوفر الحزم المستقلة لليينوكس ونوافذ و MAC. يمكن العثور على أحدث إصدار من الحزم على صفحة إصدارات Github.
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
المساهمات مرحب بها! يرجى الاطلاع على دليل المساهمة لدينا لمزيد من التفاصيل. شكرا لجميع المساهمين لدينا!
يتم توزيع هذا المشروع ضمن إصدار ترخيص Apache 2.0 (انظر ملف الترخيص في جذر المشروع).
من خلال تقديم طلب سحب إلى هذا المشروع ، فإنك توافق على ترخيص مساهمتك بموجب إصدار ترخيص Apache 2.0 لهذا المشروع.
التكرار ، DVC: التحكم في إصدار البيانات - GIT للبيانات والموديلات (2020) DOI: 10.5281/Zenodo.012345.
Barrak ، A. ، Eghan ، EE and Adams ، B. حول التطور المشترك لخطوط أنابيب ML ورمز المصدر - الدراسة التجريبية لمشاريع DVC ، في وقائع المؤتمر الدولي 28 IEEE حول تحليل البرمجيات ، التطور ، وإعادة الهندسة ، Saner 2021 .