dedupe は、機械学習を使用して構造化データに対してファジー マッチング、重複排除、エンティティ解決を迅速に実行する Python ライブラリです。
重複排除は次のことに役立ちます。
重複排除は人間のトレーニング データを取り込み、データセットに最適なルールを考案し、非常に大規模なデータベースであっても同様のレコードを迅速かつ自動的に検索します。
あなたまたはあなたの組織が重複排除ライブラリの使用に関して専門的な支援を必要としている場合は、Dedupe.io LLC がコンサルティング サービスを提供しています。価格と利用可能なサービスの詳細については、こちらをご覧ください。
データの重複を排除して一致を見つけるための重複排除ライブラリを利用したクラウド サービス。データのアップロード、モデルのセットアップ、トレーニング、クラスタリング、結果の確認を行うためのステップバイステップのウィザードが提供されます。
Dedupe.io は、データ ソース間のレコードのリンクや、API を介した継続的なマッチングとトレーニングもサポートしています。
詳細については、Dedupe.io 製品サイト、その使用方法に関するチュートリアル、および Dedupe ライブラリと Dedupe ライブラリの違いを参照してください。
Dedupe は Python コミュニティでよく採用されています。このブログ投稿、Python で重複排除を使用する方法に関する YouTube ビデオ、および Spark を使用して重複排除を大規模に適用する方法に関する YouTube ビデオをご覧ください。
CSV ファイルの重複排除とリンクを行うためのコマンド ライン ツール。これについては、Source Knight-Mozilla OpenNews をご覧ください。
重複排除のみを使用したい場合は、次の方法でインストールします。
pip install dedupe
重複排除の API を理解し、プロジェクトを開始してください。インスピレーションが必要ですか?いくつかの例を見てみましょう。
仮想化開発環境で作業するには、virtualenv と virtualenvwrapper を使用することをお勧めします。 virtualenv の設定方法を読んでください。
virtualenvwrapper を設定したら、
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
これらのテストに合格した場合は、すべてが正しくインストールされているはずです。
pytest
その後、重複排除に取り組みたいときはいつでも、
workon dedupe
コア重複排除機能の単体テスト
pytest
重複排除の使用
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
レコード連携の使用
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe は、Mikhail Yuryevich Bilenko の博士号に基づいています。学位論文:学習可能な類似性関数とそのレコード リンケージとクラスタリングへの応用。
何かが直観的に動作しない場合、それはバグであるため、報告する必要があります。ここに報告してください
著作権 (c) 2022 フォレスト グレッグおよびデレク エダー。 MITライセンスに基づいてリリースされています。
この配布物におけるサードパーティの著作権は、該当する場合に記載されています。
学術研究で重複排除を使用する場合は、次のように引用してください。
フォレスト・グレッグとデレク・エダー。 2022.重複排除。 https://github.com/dedupeio/dedupe。