dedupe는 기계 학습을 사용하여 구조화된 데이터에 대해 퍼지 매칭, 중복 제거 및 엔터티 해결을 신속하게 수행하는 Python 라이브러리입니다.
중복 제거가 도움이 될 것입니다:
중복 제거는 인간 교육 데이터를 가져와 데이터 세트에 대한 최상의 규칙을 제시하여 매우 큰 데이터베이스에서도 유사한 레코드를 빠르고 자동으로 찾을 수 있습니다.
귀하 또는 귀하의 조직이 중복 제거 라이브러리 작업에 대한 전문적인 지원을 원하는 경우 Dedupe.io LLC가 컨설팅 서비스를 제공합니다. 여기에서 가격 및 사용 가능한 서비스에 대해 자세히 알아보세요.
데이터 중복을 제거하고 일치 항목을 찾기 위해 중복 제거 라이브러리를 기반으로 하는 클라우드 서비스입니다. 데이터 업로드, 모델 설정, 교육, 클러스터링 및 결과 검토를 위한 단계별 마법사를 제공합니다.
Dedupe.io는 또한 데이터 소스 간의 기록 연결과 API를 통한 지속적인 일치 및 교육을 지원합니다.
자세한 내용은 Dedupe.io 제품 사이트, 사용 방법에 대한 튜토리얼, Dedupe 라이브러리와의 차이점을 참조하세요.
Dedupe는 Python 커뮤니티에서 잘 채택되었습니다. Python에서 Dedupe를 사용하는 방법에 대한 YouTube 동영상과 Spark를 사용하여 Dedupe를 대규모로 적용하는 방법에 대한 YouTube 동영상인 이 블로그 게시물을 확인하세요.
CSV 파일 중복 제거 및 연결을 위한 명령줄 도구입니다. Source Knight-Mozilla OpenNews에서 이에 대해 읽어보세요.
중복제거만 사용하려면 다음 방법으로 설치하세요.
pip install dedupe
중복 제거 API를 숙지하고 프로젝트를 시작하세요. 영감이 필요하신가요? 몇 가지 예를 살펴보십시오.
가상화된 개발 환경에서 작업하려면 virtualenv 및 virtualenvwrapper를 사용하는 것이 좋습니다. virtualenv 설정 방법을 읽어보세요.
virtualenvwrapper를 설정하고 나면,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
이 테스트를 통과했다면 모든 것이 올바르게 설치된 것입니다!
pytest
이후에는 중복 제거 작업을 원할 때마다
workon dedupe
핵심 중복 제거 기능의 단위 테스트
pytest
중복 제거 사용
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
레코드 연결 사용
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe는 Mikhail Yuryevich Bilenko의 박사 학위를 기반으로 합니다. 논문: 학습 가능한 유사성 함수 및 기록 연결 및 클러스터링에 대한 응용 프로그램 .
어떤 것이 직관적으로 동작하지 않는다면 이는 버그이므로 보고해야 합니다. 여기에 신고하세요
저작권 (c) 2022 Forest Gregg 및 Derek Eder. MIT 라이센스에 따라 출시되었습니다.
해당되는 경우 본 배포판의 제3자 저작권이 명시되어 있습니다.
학술 작업에서 Dedupe를 사용하는 경우 다음 인용문을 제공해 주세요.
포레스트 그레그와 데릭 에더. 2022. 중복제거. https://github.com/dedupeio/dedupe.