dedupe คือไลบรารี Python ที่ใช้การเรียนรู้ของเครื่องเพื่อทำการจับคู่แบบคลุมเครือ การขจัดข้อมูลซ้ำซ้อน และการแก้ไขเอนทิตีอย่างรวดเร็วกับข้อมูลที่มีโครงสร้าง
dedupe จะช่วยคุณ:
dedupe รับข้อมูลการฝึกอบรมของมนุษย์และสร้างกฎที่ดีที่สุดสำหรับชุดข้อมูลของคุณเพื่อค้นหาบันทึกที่คล้ายกันอย่างรวดเร็วและอัตโนมัติ แม้จะมีฐานข้อมูลขนาดใหญ่มากก็ตาม
หากคุณหรือองค์กรของคุณต้องการความช่วยเหลืออย่างมืออาชีพในการทำงานกับไลบรารี dedupe Dedupe.io LLC มีบริการให้คำปรึกษา อ่านเพิ่มเติมเกี่ยวกับราคาและบริการที่มีให้ที่นี่
บริการคลาวด์ที่ขับเคลื่อนโดยไลบรารี dedupe สำหรับการลดความซ้ำซ้อนและค้นหาข้อมูลที่ตรงกันในข้อมูลของคุณ โดยมีวิซาร์ดทีละขั้นตอนสำหรับการอัปโหลดข้อมูล การตั้งค่าโมเดล การฝึกอบรม การจัดกลุ่ม และตรวจสอบผลลัพธ์
Dedupe.io ยังรองรับการเชื่อมโยงบันทึกข้ามแหล่งข้อมูลและการจับคู่และการฝึกอบรมอย่างต่อเนื่องผ่าน API
สำหรับข้อมูลเพิ่มเติม โปรดดูที่ไซต์ผลิตภัณฑ์ Dedupe.io บทช่วยสอนเกี่ยวกับวิธีใช้งาน และความแตกต่างระหว่างผลิตภัณฑ์กับไลบรารี Dedupe
Dedupe ได้รับการยอมรับอย่างดีจากชุมชน Python ลองชมบล็อกโพสต์นี้ วิดีโอ YouTube เกี่ยวกับวิธีใช้ Dedupe กับ Python และวิดีโอ Youtube เกี่ยวกับวิธีใช้ Dedupe ในวงกว้างโดยใช้ Spark
เครื่องมือบรรทัดคำสั่งสำหรับยกเลิกการทำซ้ำและลิงก์ไฟล์ CSV อ่านรายละเอียดได้ที่ Source Knight-Mozilla OpenNews
หากคุณต้องการใช้ dedupe เท่านั้น ให้ติดตั้งด้วยวิธีนี้:
pip install dedupe
ทำความคุ้นเคยกับ API ของ dedupe และเริ่มต้นโปรเจ็กต์ของคุณ ต้องการแรงบันดาลใจ? ลองดูตัวอย่างบางส่วน
เราขอแนะนำให้ใช้ virtualenv และ virtualenvwrapper สำหรับการทำงานในสภาพแวดล้อมการพัฒนาเสมือนจริง อ่านวิธีตั้งค่า virtualenv
เมื่อคุณตั้งค่า virtualenvwrapper แล้ว
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
หากการทดสอบเหล่านี้ผ่าน แสดงว่าทุกอย่างควรได้รับการติดตั้งอย่างถูกต้อง!
pytest
หลังจากนั้น เมื่อใดก็ตามที่คุณต้องการแก้ไขข้อมูลซ้ำซ้อน
workon dedupe
การทดสอบหน่วยของฟังก์ชันหลัก dedupe
pytest
การใช้การขจัดข้อมูลซ้ำซ้อน
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
การใช้การเชื่อมโยงบันทึก
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe ขึ้นอยู่กับปริญญาเอกของ Mikhail Yuryevich Bilenko วิทยานิพนธ์: ฟังก์ชันความคล้ายคลึงกันที่เรียนรู้ได้และการประยุกต์เพื่อบันทึกการเชื่อมโยงและการจัดกลุ่ม
หากมีบางอย่างไม่ทำงานตามสัญชาตญาณ แสดงว่าเป็นจุดบกพร่อง และควรได้รับการรายงาน รายงานได้ที่นี่
ลิขสิทธิ์ (c) 2022 Forest Gregg และ Derek Eder เผยแพร่ภายใต้ใบอนุญาต MIT
ลิขสิทธิ์ของบุคคลที่สามในการเผยแพร่นี้จะถูกบันทึกไว้หากมี
หากคุณใช้ Dedupe ในงานวิชาการ โปรดให้ข้อมูลอ้างอิงนี้:
ฟอเรสต์ เกร็กก์ และเดเร็ก เอเดอร์ 2022. ขจัดข้อมูลซ้ำซ้อน. https://github.com/dedupeio/dedupe