dedupe 是一個 Python 函式庫,它使用機器學習對結構化資料快速執行模糊匹配、重複資料刪除和實體解析。
重複資料刪除將幫助您:
重複資料刪除會吸收人類訓練數據,並為您的資料集提出最佳規則,以便快速、自動地找到相似記錄,即使資料庫非常大。
如果您或您的組織在使用重複資料刪除程式庫時需要專業協助,Dedupe.io LLC 可以提供諮詢服務。請在此處閱讀有關定價和可用服務的更多資訊。
由重複資料刪除庫提供支援的雲端服務,用於刪除資料中的重複資料並尋找匹配項。它提供了一個逐步嚮導,用於上傳資料、設定模型、訓練、聚類和檢查結果。
Dedupe.io 還支援跨資料來源的記錄連結以及透過 API 進行持續匹配和訓練。
有關詳細信息,請參閱 Dedupe.io 產品網站、有關如何使用它的教程以及它與重複資料刪除庫之間的差異。
Dedupe 已被 Python 社群廣泛採用。請查看此部落格文章、有關如何透過 Python 使用 Dedupe 的 YouTube 影片以及有關如何使用 Spark 大規模應用 Dedupe 的 YouTube 影片。
用於刪除重複資料和連結 CSV 檔案的命令列工具。請在 Source Knight-Mozilla OpenNews 上閱讀相關內容。
如果您只想使用重複資料刪除,請按以下方式安裝:
pip install dedupe
熟悉重複資料刪除的 API,然後開始您的專案。需要靈感嗎?看一些例子。
我們建議使用 virtualenv 和 virtualenvwrapper 在虛擬化開發環境中工作。閱讀如何設定 virtualenv。
設定 virtualenvwrapper 後,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
如果這些測試通過,那麼一切都應該已正確安裝!
pytest
之後,每當您想要進行重複資料刪除時,
workon dedupe
核心重複資料刪除功能的單元測試
pytest
使用重複資料刪除
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
使用記錄連結
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe 基於 Mikhail Yuryevich Bilenko 的博士學位。論文:可學習的相似函數及其在記錄連結和聚類中的應用。
如果某些東西的行為不直觀,那麼它就是一個錯誤,應該報告。在這裡舉報
版權所有 (c) 2022 Forest Gregg 和 Derek Eder。根據 MIT 許可證發布。
本發行版中的第三方版權在適用的情況下已註明。
如果您在學術工作中使用 Dedupe,請給予此引用:
福里斯特·格雷格和德里克·埃德。 2022. 重複資料刪除。 https://github.com/dedupeio/dedupe。