dedupe es una biblioteca de Python que utiliza el aprendizaje automático para realizar rápidamente coincidencias difusas, deduplicación y resolución de entidades en datos estructurados.
la deduplicación le ayudará a:
dedupe toma datos de entrenamiento humano y crea las mejores reglas para que su conjunto de datos encuentre registros similares de manera rápida y automática, incluso con bases de datos muy grandes.
Si usted o su organización desean asistencia profesional para trabajar con la biblioteca de deduplicación, Dedupe.io LLC ofrece servicios de consultoría. Lea más sobre precios y servicios disponibles aquí.
Un servicio en la nube impulsado por la biblioteca de deduplicación para deduplicar y encontrar coincidencias en sus datos. Proporciona un asistente paso a paso para cargar sus datos, configurar un modelo, entrenar, agrupar y revisar los resultados.
Dedupe.io también admite la vinculación de registros entre fuentes de datos y la comparación y capacitación continua a través de una API.
Para obtener más información, consulte el sitio del producto Dedupe.io, los tutoriales sobre cómo usarlo y las diferencias entre este y la biblioteca de dedupe.
La deduplicación está bien adoptada por la comunidad de Python. Consulte esta publicación de blog, un video de YouTube sobre cómo usar Dedupe con Python y un video de Youtube sobre cómo aplicar Dedupe a escala usando Spark.
Herramienta de línea de comandos para eliminar duplicados y vincular archivos CSV. Lea sobre esto en Fuente Knight-Mozilla OpenNews.
Si solo desea utilizar la deduplicación, instálelo de esta manera:
pip install dedupe
Familiarícese con la API de dedupe y comience con su proyecto. ¿Necesitas inspiración? Eche un vistazo a algunos ejemplos.
Recomendamos utilizar virtualenv y virtualenvwrapper para trabajar en un entorno de desarrollo virtualizado. Lea cómo configurar virtualenv.
Una vez que haya configurado virtualenvwrapper,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
Si estas pruebas pasan, ¡todo debería haberse instalado correctamente!
pytest
Luego, cuando quieras trabajar en la deduplicación,
workon dedupe
Pruebas unitarias de funciones principales de deduplicación
pytest
Usando la deduplicación
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
Utilizar la vinculación de registros
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe se basa en el doctorado de Mikhail Yuryevich Bilenko. disertación: Funciones de similitud que se pueden aprender y su aplicación para registrar vinculaciones y agrupaciones .
Si algo no se comporta intuitivamente, es un error y debe informarse. Denúncialo aquí
Copyright (c) 2022 Forest Gregg y Derek Eder. Publicado bajo la licencia MIT.
Los derechos de autor de terceros en esta distribución se indican cuando corresponde.
Si utiliza Dedupe en un trabajo académico, proporcione esta cita:
Forest Gregg y Derek Eder. 2022. Deduplicación. https://github.com/dedupeio/dedupe.