datasketch
v1.6.5
datasketch memberi Anda struktur data probabilistik yang dapat memproses dan mencari data dalam jumlah sangat besar dengan sangat cepat, dengan sedikit kehilangan akurasi.
Paket ini berisi sketsa data berikut:
Sketsa Data | Penggunaan |
---|---|
MinHash | memperkirakan kesamaan dan kardinalitas Jaccard |
MinHash tertimbang | memperkirakan kesamaan Jaccard tertimbang |
HyperLogLog | memperkirakan kardinalitas |
HyperLogLog++ | memperkirakan kardinalitas |
Indeks sketsa data berikut disediakan untuk mendukung waktu kueri sublinier:
Indeks | Untuk Sketsa Data | Jenis Kueri yang Didukung |
---|---|---|
MinHash LSH | MinHash, MinHash Tertimbang | Ambang Jaccard |
Hutan LSH MinHash | MinHash, MinHash Tertimbang | Jaccard Top-K |
Ansambel MinHash LSH | MinHash | Ambang Penahanan |
HNSW | Setiap | Metrik Kustom Top-K |
sketsa data harus digunakan dengan Python 3.7 atau lebih tinggi, NumPy 1.11 atau lebih tinggi, dan Scipy.
Perhatikan bahwa MinHash LSH dan MinHash LSH Ensemble juga mendukung lapisan penyimpanan Redis dan Cassandra (lihat MinHash LSH dalam Skala Besar).
Untuk menginstal datasketch menggunakan pip
:
pip instal sketsa data
Ini juga akan menginstal NumPy sebagai ketergantungan.
Untuk menginstal dengan ketergantungan Redis:
pip instal sketsa data[redis]
Untuk menginstal dengan ketergantungan Cassandra:
pip instal sketsa data[cassandra]