dedupe est une bibliothèque Python qui utilise l'apprentissage automatique pour effectuer rapidement une correspondance floue, une déduplication et une résolution d'entité sur des données structurées.
la déduplication vous aidera à :
La déduplication prend en compte les données de formation humaine et propose les meilleures règles pour votre ensemble de données afin de trouver rapidement et automatiquement des enregistrements similaires, même avec de très grandes bases de données.
Si vous ou votre organisation souhaitez obtenir une assistance professionnelle pour travailler avec la bibliothèque de déduplication, Dedupe.io LLC propose des services de conseil. En savoir plus sur les tarifs et les services disponibles ici.
Un service cloud alimenté par la bibliothèque de déduplication pour la déduplication et la recherche de correspondances dans vos données. Il fournit un assistant étape par étape pour télécharger vos données, configurer un modèle, former, regrouper et examiner les résultats.
Dedupe.io prend également en charge la liaison des enregistrements entre les sources de données, ainsi que la mise en correspondance et la formation continues via une API.
Pour en savoir plus, consultez le site du produit Dedupe.io, les didacticiels sur son utilisation et les différences entre celui-ci et la bibliothèque de déduplication.
La déduplication est bien adoptée par la communauté Python. Consultez cet article de blog, une vidéo YouTube sur la façon d'utiliser la Dedupe avec Python et une vidéo Youtube sur la façon d'appliquer la Dedupe à grande échelle à l'aide de Spark.
Outil de ligne de commande pour dédupliquer et lier des fichiers CSV. Lisez à ce sujet sur Source Knight-Mozilla OpenNews.
Si vous souhaitez uniquement utiliser la déduplication, installez-le de cette façon :
pip install dedupe
Familiarisez-vous avec l'API de déduplication et démarrez votre projet. Besoin d'inspiration ? Jetez un œil à quelques exemples.
Nous vous recommandons d'utiliser virtualenv et virtualenvwrapper pour travailler dans un environnement de développement virtualisé. Lisez comment configurer virtualenv.
Une fois que virtualenvwrapper est configuré,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
Si ces tests réussissent, alors tout devrait avoir été installé correctement !
pytest
Ensuite, chaque fois que vous souhaitez travailler sur la déduplication,
workon dedupe
Tests unitaires des fonctions de déduplication principales
pytest
Utilisation de la déduplication
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
Utilisation du couplage d'enregistrements
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe est basé sur le doctorat de Mikhail Yuryevich Bilenko. Thèse : Fonctions de similarité apprenables et leur application à la liaison et au regroupement d'enregistrements .
Si quelque chose ne se comporte pas intuitivement, il s’agit d’un bug qui doit être signalé. Signalez-le ici
Copyright (c) 2022 Forest Gregg et Derek Eder. Publié sous la licence MIT.
Les droits d'auteur de tiers sur cette distribution sont indiqués le cas échéant.
Si vous utilisez Dedupe dans un travail académique, veuillez citer cette citation :
Forest Gregg et Derek Eder. 2022. Déduplication. https://github.com/dedupeio/dedupe.