dedupe — это библиотека Python, которая использует машинное обучение для быстрого выполнения нечеткого сопоставления, дедупликации и разрешения сущностей в структурированных данных.
дедупе поможет вам:
dedupe использует данные обучения людей и предлагает оптимальные правила для вашего набора данных, позволяющие быстро и автоматически находить похожие записи даже в очень больших базах данных.
Если вам или вашей организации нужна профессиональная помощь в работе с библиотекой дедупе, компания Dedupe.io LLC предлагает консультационные услуги. Подробнее о ценах и доступных услугах читайте здесь.
Облачный сервис на базе библиотеки дедупликации для дедупликации и поиска совпадений в ваших данных. Он предоставляет пошаговый мастер для загрузки ваших данных, настройки модели, обучения, кластеризации и просмотра результатов.
Dedupe.io также поддерживает связывание записей между источниками данных, а также непрерывное сопоставление и обучение через API.
Дополнительные сведения см. на сайте продукта Dedupe.io, руководствах по его использованию и различиях между ним и библиотекой dedupe.
Dedupe хорошо принят сообществом Python. Ознакомьтесь с этой публикацией в блоге, видео на YouTube о том, как использовать Dedupe с Python, и видео на YouTube о том, как масштабировать Dedupe с помощью Spark.
Инструмент командной строки для дедупликации и связывания файлов CSV. Прочтите об этом на Source Knight-Mozilla OpenNews.
Если вы хотите использовать только дедупликацию, установите ее следующим образом:
pip install dedupe
Ознакомьтесь с API-интерфейсом dedupe и начните работу над своим проектом. Вам нужно вдохновение? Взгляните на несколько примеров.
Мы рекомендуем использовать virtualenv и virtualenvwrapper для работы в виртуализированной среде разработки. Прочтите, как настроить virtualenv.
После того, как вы настроили virtualenvwrapper,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
Если эти тесты пройдены, то все должно было быть установлено правильно!
pytest
Впоследствии, когда вы захотите поработать над дедупе,
workon dedupe
Модульные тесты основных функций дедупликации
pytest
Использование дедупликации
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
Использование связи записей
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe основан на докторской диссертации Михаила Юрьевича Биленко. диссертация: Обучаемые функции подобия и их применение для связывания записей и кластеризации .
Если что-то ведет себя не интуитивно, это ошибка, о которой следует сообщить. Сообщите об этом здесь
Copyright (c) 2022 Форест Грегг и Дерек Эдер. Выпущено по лицензии MIT.
Авторские права третьих лиц в этом выпуске отмечены там, где это применимо.
Если вы используете Dedupe в научной работе, дайте ссылку:
Форест Грегг и Дерек Эдер. 2022. Дедуп. https://github.com/dedupeio/dedupe.