Dedupe 是一个 Python 库,它使用机器学习对结构化数据快速执行模糊匹配、重复数据删除和实体解析。
重复数据删除将帮助您:
重复数据删除会吸收人类训练数据,并为您的数据集提出最佳规则,以便快速自动查找相似记录,即使数据库非常大。
如果您或您的组织在使用重复数据删除库时需要专业帮助,Dedupe.io LLC 可以提供咨询服务。请在此处阅读有关定价和可用服务的更多信息。
由重复数据删除库提供支持的云服务,用于删除数据中的重复数据并查找匹配项。它提供了一个分步向导,用于上传数据、设置模型、训练、聚类和检查结果。
Dedupe.io 还支持跨数据源的记录链接以及通过 API 进行持续匹配和训练。
有关更多信息,请参阅 Dedupe.io 产品网站、有关如何使用它的教程以及它与重复数据删除库之间的区别。
Dedupe 已被 Python 社区广泛采用。请查看此博文、有关如何通过 Python 使用 Dedupe 的 YouTube 视频和有关如何使用 Spark 大规模应用 Dedupe 的 YouTube 视频。
用于删除重复数据和链接 CSV 文件的命令行工具。请在 Source Knight-Mozilla OpenNews 上阅读相关内容。
如果您只想使用重复数据删除,请按以下方式安装:
pip install dedupe
熟悉重复数据删除的 API,然后开始您的项目。需要灵感吗?看一些例子。
我们建议使用 virtualenv 和 virtualenvwrapper 在虚拟化开发环境中工作。阅读如何设置 virtualenv。
设置 virtualenvwrapper 后,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
如果这些测试通过,那么一切都应该已正确安装!
pytest
之后,每当您想要进行重复数据删除时,
workon dedupe
核心重复数据删除功能的单元测试
pytest
使用重复数据删除
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
使用记录链接
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe 基于 Mikhail Yuryevich Bilenko 的博士学位。论文:可学习的相似函数及其在记录链接和聚类中的应用。
如果某些东西的行为不直观,那么它就是一个错误,应该报告。在这里举报
版权所有 (c) 2022 Forest Gregg 和 Derek Eder。根据 MIT 许可证发布。
本发行版中的第三方版权在适用的情况下已注明。
如果您在学术工作中使用 Dedupe,请给出此引用:
福里斯特·格雷格和德里克·埃德。 2022. 重复数据删除。 https://github.com/dedupeio/dedupe。