dedupe adalah pustaka python yang menggunakan pembelajaran mesin untuk melakukan pencocokan fuzzy, deduplikasi, dan resolusi entitas dengan cepat pada data terstruktur.
dedupe akan membantu Anda:
dedupe mengambil data pelatihan manusia dan memberikan aturan terbaik untuk kumpulan data Anda agar dapat menemukan catatan serupa dengan cepat dan otomatis, bahkan dengan database yang sangat besar.
Jika Anda atau organisasi Anda memerlukan bantuan profesional dalam bekerja dengan perpustakaan dedupe, Dedupe.io LLC menawarkan layanan konsultasi. Baca lebih lanjut tentang harga dan layanan yang tersedia di sini.
Layanan cloud yang didukung oleh perpustakaan dedupe untuk menghilangkan duplikasi dan menemukan kecocokan dalam data Anda. Ini memberikan panduan langkah demi langkah untuk mengunggah data Anda, menyiapkan model, melatih, mengelompokkan, dan meninjau hasilnya.
Dedupe.io juga mendukung tautan catatan di seluruh sumber data serta pencocokan dan pelatihan berkelanjutan melalui API.
Untuk lebih lanjut, lihat situs produk Dedupe.io, tutorial cara menggunakannya, dan perbedaan antara produk tersebut dan perpustakaan dedupe.
Dedupe diadopsi dengan baik oleh komunitas Python. Lihat postingan blog ini, video YouTube tentang cara menggunakan Dedupe dengan Python dan video Youtube tentang cara menerapkan Dedupe dalam skala besar menggunakan Spark.
Alat baris perintah untuk menghapus duplikat dan menautkan file CSV. Baca tentangnya di Sumber Knight-Mozilla OpenNews.
Jika Anda hanya ingin menggunakan dedupe, instal dengan cara ini:
pip install dedupe
Biasakan diri Anda dengan API dedupe, dan mulailah proyek Anda. Butuh inspirasi? Lihatlah beberapa contoh.
Kami merekomendasikan penggunaan virtualenv dan virtualenvwrapper untuk bekerja di lingkungan pengembangan tervirtualisasi. Baca cara mengatur virtualenv.
Setelah Anda menyiapkan virtualenvwrapper,
mkvirtualenv dedupe
git clone https://github.com/dedupeio/dedupe.git
cd dedupe
pip install -e . --config-settings editable_mode=compat
pip install -r requirements.txt
Jika tes ini lulus, maka semuanya seharusnya sudah terpasang dengan benar!
pytest
Setelah itu, kapan pun Anda ingin mengerjakan dedupe,
workon dedupe
Tes unit fungsi dedupe inti
pytest
Menggunakan Deduplikasi
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical.py
Menggunakan Tautan Rekam
python -m pip install -e ./benchmarks
python benchmarks/benchmarks/canonical_matching.py
Dedupe didasarkan pada gelar Ph.D. disertasi: Fungsi Kesamaan yang Dapat Dipelajari dan Penerapannya untuk Mencatat Linkage dan Clustering .
Jika ada sesuatu yang tidak berfungsi secara intuitif, itu adalah bug, dan harus dilaporkan. Laporkan di sini
Hak Cipta (c) 2022 Forest Gregg dan Derek Eder. Dirilis di bawah Lisensi MIT.
Hak cipta pihak ketiga dalam distribusi ini dicatat jika berlaku.
Jika Anda menggunakan Dedupe dalam karya akademis, harap berikan kutipan ini:
Hutan Gregg dan Derek Eder. 2022. Dedupe. https://github.com/dedupeio/dedupe.