dedupe هي مكتبة بيثون تستخدم التعلم الآلي لإجراء المطابقة الغامضة وإلغاء البيانات المكررة وحل الكيان بسرعة على البيانات المنظمة.
سوف يساعدك dedupe على:
يأخذ dedupe بيانات التدريب البشري ويأتي بأفضل القواعد لمجموعة البيانات الخاصة بك للعثور بسرعة وتلقائية على سجلات مماثلة، حتى مع قواعد البيانات الكبيرة جدًا.
إذا كنت أنت أو مؤسستك ترغب في الحصول على مساعدة احترافية في العمل مع مكتبة dedupe، فإن شركة Dedupe.io LLC تقدم خدمات استشارية. اقرأ المزيد عن الأسعار والخدمات المتاحة هنا.
خدمة سحابية مدعومة من مكتبة dedupe لإلغاء التكرار والعثور على التطابقات في بياناتك. فهو يوفر معالجًا خطوة بخطوة لتحميل بياناتك وإعداد نموذج والتدريب وتجميع ومراجعة النتائج.
يدعم Dedupe.io أيضًا ربط السجلات عبر مصادر البيانات والمطابقة المستمرة والتدريب من خلال واجهة برمجة التطبيقات.
للمزيد، راجع موقع منتج Dedupe.io، والبرامج التعليمية حول كيفية استخدامه، والاختلافات بينه وبين مكتبة dedupe.
تم اعتماد Dedupe جيدًا من قبل مجتمع Python. اطلع على منشور المدونة هذا، ومقطع فيديو على YouTube حول كيفية استخدام Dedupe مع Python ومقطع فيديو على YouTube حول كيفية تطبيق Dedupe على نطاق واسع باستخدام Spark.
أداة سطر الأوامر لإلغاء تكرار ملفات CSV وربطها. اقرأ عن ذلك على Source Knight-Mozilla OpenNews.
إذا كنت تريد استخدام dedupe فقط، فقم بتثبيته بهذه الطريقة:
pip install dedupe
تعرف على واجهة برمجة التطبيقات الخاصة بـ dedupe، وابدأ في مشروعك. هل تحتاج إلى الإلهام؟ ألق نظرة على بعض الأمثلة.
نوصي باستخدام virtualenv وvirtualenvwrapper للعمل في بيئة تطوير افتراضية. اقرأ كيفية إعداد virtualenv.
بمجرد الانتهاء من إعداد virtualenvwrapper،
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
إذا نجحت هذه الاختبارات، فيجب أن يتم تثبيت كل شيء بشكل صحيح!
pytest
بعد ذلك، عندما تريد العمل على dedupe،
workon dedupe
اختبارات الوحدة لوظائف الحذف الأساسية
pytest
استخدام إلغاء البيانات المكررة
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
استخدام ربط السجل
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
يعتمد Dedupe على دكتوراه ميخائيل يوريفيتش بيلينكو. الأطروحة: وظائف التشابه القابلة للتعلم وتطبيقها على تسجيل الارتباط والتجمع .
إذا كان هناك شيء لا يتصرف بشكل حدسي، فهو خطأ ويجب الإبلاغ عنه. الإبلاغ عنه هنا
حقوق الطبع والنشر (ج) لعام 2022 مملوكة لشركة فورست جريج وديريك إيدير. تم إصداره بموجب ترخيص MIT.
تتم الإشارة إلى حقوق الطبع والنشر الخاصة بالطرف الثالث في هذا التوزيع عند الاقتضاء.
إذا كنت تستخدم Dedupe في عمل أكاديمي، فيرجى تقديم هذا الاقتباس:
فورست جريج وديريك إيدير. 2022. تخلص من. https://github.com/dedupeio/dedupe.