ตรวจสอบ Datachain ผลิตภัณฑ์ใหม่ของเรา (และให้มัน!) หากคุณต้องการเวอร์ชันและประมวลผลไฟล์จำนวนมาก ติดต่อเราที่ [email protected] เพื่อหารือเกี่ยวกับโซลูชั่นเชิงพาณิชย์และการสนับสนุนสำหรับสถานการณ์การทำซ้ำ AI และสถานการณ์การจัดการข้อมูล
เว็บไซต์•เอกสาร•บล็อก•การสอน•เทคโนโลยีที่เกี่ยวข้อง•วิธีการทำงานของ DVC • VS Code Extension •การติดตั้ง•การสนับสนุน•ชุมชนและการสนับสนุน
การควบคุมเวอร์ชันข้อมูล หรือ DVC เป็นเครื่องมือบรรทัดคำสั่งและส่วนขยายรหัส VS เพื่อช่วยให้คุณพัฒนาโครงการเรียนรู้ของเครื่องที่ทำซ้ำได้:
โปรดอ่านการอ้างอิงคำสั่งของเราสำหรับรายการที่สมบูรณ์
เวิร์กโฟลว์ CLI ทั่วไปรวมถึง:
งาน | เทอร์มินัล |
---|---|
ติดตามข้อมูล | $ git add train.py params.yaml $ dvc add images/ |
เชื่อมต่อรหัสและข้อมูล | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py $ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
ทำการเปลี่ยนแปลงและทดลอง | $ dvc exp run -n exp-baseline $ vi train.py $ dvc exp run -n exp-code-change |
เปรียบเทียบและเลือกการทดลอง | $ dvc exp show $ dvc exp apply exp-baseline |
แชร์รหัส | $ git add . $ git commit -m 'The baseline model' $ git push |
แบ่งปันข้อมูลและโมเดล ML | $ dvc remote add myremote -d s3://mybucket/image_cnn $ dvc push |
เราขอแนะนำให้คุณอ่านเอกสารการเริ่มต้นของเราเพื่อทำความเข้าใจว่า DVC ทำอะไรได้ดีขึ้นและมันจะเหมาะสมกับสถานการณ์ของคุณอย่างไร
การเปรียบเทียบ ที่ใกล้เคียงที่สุดเพื่ออธิบายคุณสมบัติ DVC หลักคือสิ่งเหล่านี้:
Git ใช้ตามปกติในการจัดเก็บและรหัสเวอร์ชัน (รวมถึง DVC Meta-Files เป็นตัวยึดตำแหน่งสำหรับข้อมูล) DVC เก็บข้อมูลและไฟล์โมเดลได้อย่างราบรื่นในแคชนอก Git ในขณะที่รักษาประสบการณ์ผู้ใช้เกือบเหมือนกันราวกับว่าพวกเขาอยู่ใน repo ในการแชร์และสำรอง ข้อมูลแคชข้อมูล DVC รองรับแพลตฟอร์มการจัดเก็บข้อมูลระยะไกลหลายแพลตฟอร์ม - คลาวด์ใด ๆ (S3, Azure, Google Cloud, ฯลฯ ) หรือที่เก็บข้อมูลเครือข่ายในสถานที่ (ผ่าน SSH เป็นต้น)
DVC Pipelines (กราฟการคำนวณ) เชื่อมต่อรหัสและข้อมูลเข้าด้วยกัน พวกเขาระบุขั้นตอนทั้งหมดที่จำเป็นในการสร้างแบบจำลอง: การพึ่งพาอินพุตรวมถึงรหัสข้อมูลคำสั่งที่จะเรียกใช้; และข้อมูลผลลัพธ์ที่จะบันทึก
สุดท้าย แต่ไม่ท้ายสุดการกำหนดเวอร์ชันการทดลอง DVC ช่วยให้คุณเตรียมและดำเนินการทดลองจำนวนมาก ผลลัพธ์ของพวกเขาสามารถกรองและเปรียบเทียบได้ตามพารามิเตอร์และตัวชี้วัดและมองเห็นด้วยพล็อตหลายแปลง
หากต้องการใช้ DVC เป็น GUI จากรหัส VS ของคุณให้ติดตั้งส่วนขยาย DVC จากตลาด ปัจจุบันมีคุณสมบัติการติดตามการทดลองและการจัดการข้อมูลและคุณสมบัติอื่น ๆ (การสนับสนุนท่อส่งข้อมูล ฯลฯ ) กำลังจะมาเร็ว ๆ นี้!
หมายเหตุ: คุณจะต้องติดตั้ง Core DVC ในระบบของคุณแยกกัน (ตามรายละเอียดด้านล่าง) ส่วนขยายจะแนะนำคุณหากจำเป็น
มีหลายวิธีในการติดตั้ง DVC: ในรหัส VS; ใช้ snap
, choco
, brew
, conda
, pip
; หรือด้วยแพ็คเกจเฉพาะระบบปฏิบัติการ มีคำแนะนำเต็มรูปแบบที่นี่
snap install dvc --classic
สิ่งนี้สอดคล้องกับรุ่นล่าสุดที่ติดแท็ก เพิ่ม --beta
สำหรับผู้สมัครรุ่นล่าสุดที่ติดแท็กหรือ --edge
สำหรับเวอร์ชัน main
ล่าสุด
choco install dvc
brew install dvc
conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
ขึ้นอยู่กับประเภทที่เก็บข้อมูลระยะไกลที่คุณวางแผนที่จะใช้เพื่อเก็บและแบ่งปันข้อมูลของคุณคุณอาจต้องติดตั้งการพึ่งพาตัวเลือก: DVC-S3, DVC-Azure, DVC-GDRIVE, DVC-GS, DVC-OSS, DVC-SSH
pip install dvc
ขึ้นอยู่กับประเภทที่เก็บข้อมูลระยะไกลที่คุณวางแผนที่จะใช้เพื่อเก็บและแบ่งปันข้อมูลของคุณคุณอาจต้องระบุหนึ่งในการพึ่งพาที่เป็นตัวเลือก: s3
, gs
, azure
, oss
, ssh
หรือ all
เพื่อรวมไว้ทั้งหมด คำสั่งควรมีลักษณะเช่นนี้: pip install 'dvc[s3]'
(ในกรณีนี้การพึ่งพา AWS S3 เช่น boto3
จะถูกติดตั้งโดยอัตโนมัติ)
ในการติดตั้งเวอร์ชันการพัฒนา Run:
pip install git+git://github.com/iterative/dvc
มีแพ็คเกจที่มีอยู่ในตัวเองสำหรับ Linux, Windows และ Mac แพ็คเกจเวอร์ชันล่าสุดสามารถพบได้ในหน้า GitHub Reasees
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
sudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
ยินดีต้อนรับ! โปรดดูคู่มือการสนับสนุนของเราสำหรับรายละเอียดเพิ่มเติม ขอบคุณผู้มีส่วนร่วมของเราทุกคน!
โครงการนี้มีการแจกจ่ายภายใต้ Apache License Version 2.0 (ดูไฟล์ใบอนุญาตในรูทโครงการ)
โดยการส่งคำขอดึงไปยังโครงการนี้คุณตกลงที่จะอนุญาตให้มีส่วนร่วมของคุณภายใต้ Apache License Version 2.0 ไปยังโครงการนี้
การวนซ้ำ, DVC: การควบคุมเวอร์ชันข้อมูล - GIT สำหรับข้อมูลและรุ่น (2020) DOI: 10.5281/Zenodo.012345
Barrak, A. , Eghan, EE และ Adams, B. ในการวิวัฒนาการร่วมของ ML ท่อและซอร์สโค้ด - การศึกษาเชิงประจักษ์ของโครงการ DVC ในการดำเนินการประชุมนานาชาติ IEEE ครั้งที่ 28 เกี่ยวกับการวิเคราะห์ซอฟต์แวร์วิวัฒนาการและการปรับโครงสร้าง Saner 2021 . ฮาวายสหรัฐอเมริกา