dedupe é uma biblioteca python que usa aprendizado de máquina para realizar correspondência difusa, desduplicação e resolução de entidade rapidamente em dados estruturados.
desduplicar irá ajudá-lo:
dedupe utiliza dados de treinamento humano e cria as melhores regras para que seu conjunto de dados encontre registros semelhantes de forma rápida e automática, mesmo com bancos de dados muito grandes.
Se você ou sua organização desejarem assistência profissional para trabalhar com a biblioteca de desduplicação, a Dedupe.io LLC oferece serviços de consultoria. Leia mais sobre preços e serviços disponíveis aqui.
Um serviço em nuvem alimentado pela biblioteca de desduplicação para desduplicar e encontrar correspondências em seus dados. Ele fornece um assistente passo a passo para fazer upload de seus dados, configurar um modelo, treinar, agrupar e revisar os resultados.
Dedupe.io também oferece suporte à vinculação de registros entre fontes de dados e correspondência e treinamento contínuos por meio de uma API.
Para obter mais informações, consulte o site do produto Dedupe.io, tutoriais sobre como usá-lo e diferenças entre ele e a biblioteca de desduplicação.
A desduplicação é bem adotada pela comunidade Python. Confira esta postagem do blog, um vídeo do YouTube sobre como usar o Dedupe com Python e um vídeo do YouTube sobre como aplicar o Dedupe em escala usando Spark.
Ferramenta de linha de comando para desduplicar e vincular arquivos CSV. Leia sobre isso no Source Knight-Mozilla OpenNews.
Se você quiser apenas usar a desduplicação, instale-a desta forma:
pip install dedupe
Familiarize-se com a API de desduplicação e comece seu projeto. Precisa de inspiração? Dê uma olhada em alguns exemplos.
Recomendamos o uso de virtualenv e virtualenvwrapper para trabalhar em um ambiente de desenvolvimento virtualizado. Leia como configurar o virtualenv.
Depois de configurar o virtualenvwrapper,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
Se esses testes forem aprovados, tudo deverá ter sido instalado corretamente!
pytest
Depois, sempre que quiser trabalhar na desduplicação,
workon dedupe
Testes unitários de funções principais de desduplicação
pytest
Usando desduplicação
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
Usando vinculação de registros
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe é baseado no Ph.D. de Mikhail Yuryevich Bilenko. dissertação: Funções de similaridade que podem ser aprendidas e sua aplicação para vinculação e agrupamento de registros .
Se algo não estiver se comportando intuitivamente, é um bug e deve ser reportado. Informe aqui
Copyright (c) 2022 Forest Gregg e Derek Eder. Lançado sob a licença MIT.
Os direitos autorais de terceiros nesta distribuição são indicados quando aplicável.
Se você usar o Dedupe em um trabalho acadêmico, forneça esta citação:
Forest Gregg e Derek Eder. 2022. Desduplicação. https://github.com/dedupeio/dedupe.