dedupe ist eine Python-Bibliothek, die maschinelles Lernen nutzt, um schnell Fuzzy-Matching, Deduplizierung und Entitätsauflösung für strukturierte Daten durchzuführen.
dedupe hilft Ihnen:
Dedupe berücksichtigt menschliche Trainingsdaten und erstellt die besten Regeln für Ihren Datensatz, um schnell und automatisch ähnliche Datensätze zu finden, selbst bei sehr großen Datenbanken.
Wenn Sie oder Ihre Organisation professionelle Unterstützung bei der Arbeit mit der Dedupe-Bibliothek wünschen, bietet Dedupe.io LLC Beratungsdienste an. Lesen Sie hier mehr über Preise und verfügbare Dienstleistungen.
Ein auf der Deduplizierungsbibliothek basierender Cloud-Dienst zum Deduplizieren und Finden von Übereinstimmungen in Ihren Daten. Es bietet einen Schritt-für-Schritt-Assistenten zum Hochladen Ihrer Daten, Einrichten eines Modells, Training, Clustering und Überprüfen der Ergebnisse.
Dedupe.io unterstützt auch die Datensatzverknüpfung über Datenquellen hinweg sowie den kontinuierlichen Abgleich und das Training über eine API.
Weitere Informationen finden Sie auf der Produktseite von Dedupe.io, in Tutorials zur Verwendung und zu den Unterschieden zwischen Dedupe.io und der Dedupe-Bibliothek.
Dedupe wird von der Python-Community gut angenommen. Schauen Sie sich diesen Blogbeitrag an, ein YouTube-Video zur Verwendung von Dedupe mit Python und ein YouTube-Video zur skalierten Anwendung von Dedupe mit Spark.
Befehlszeilentool zum Deduplizieren und Verknüpfen von CSV-Dateien. Lesen Sie darüber auf Source Knight-Mozilla OpenNews.
Wenn Sie nur Deduplizierung verwenden möchten, installieren Sie es wie folgt:
pip install dedupe
Machen Sie sich mit der API von dedupe vertraut und beginnen Sie mit Ihrem Projekt. Brauchen Sie Inspiration? Schauen Sie sich einige Beispiele an.
Für die Arbeit in einer virtualisierten Entwicklungsumgebung empfehlen wir die Verwendung von virtualenv und virtualenvwrapper. Lesen Sie, wie Sie Virtualenv einrichten.
Sobald Sie Virtualenvwrapper eingerichtet haben,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
Wenn diese Tests erfolgreich sind, sollte alles korrekt installiert sein!
pytest
Wenn Sie anschließend an der Deduplizierung arbeiten möchten,
workon dedupe
Unit-Tests der Kern-Deduplizierungsfunktionen
pytest
Deduplizierung nutzen
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
Verwenden der Datensatzverknüpfung
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe basiert auf der Doktorarbeit von Michail Jurjewitsch Bilenko. Dissertation: Lernbare Ähnlichkeitsfunktionen und ihre Anwendung auf Datensatzverknüpfung und Clustering .
Wenn sich etwas nicht intuitiv verhält, handelt es sich um einen Fehler, der gemeldet werden sollte. Melde es hier
Copyright (c) 2022 Forest Gregg und Derek Eder. Veröffentlicht unter der MIT-Lizenz.
Sofern anwendbar, wird auf das Urheberrecht Dritter in dieser Distribution hingewiesen.
Wenn Sie Dedupe in einer wissenschaftlichen Arbeit verwenden, geben Sie bitte dieses Zitat an:
Forest Gregg und Derek Eder. 2022. Entduplizierung. https://github.com/dedupeio/dedupe.