datasketch bietet Ihnen probabilistische Datenstrukturen, mit denen Sie sehr große Datenmengen superschnell und mit geringem Genauigkeitsverlust verarbeiten und durchsuchen können.
Dieses Paket enthält die folgenden Datenskizzen:
Datenskizze | Verwendung |
---|---|
MinHash | Schätzung der Jaccard-Ähnlichkeit und Kardinalität |
Gewichteter MinHash | Schätzen Sie die gewichtete Jaccard-Ähnlichkeit |
HyperLogLog | Kardinalität schätzen |
HyperLogLog++ | Kardinalität schätzen |
Zur Unterstützung der sublinearen Abfragezeit werden die folgenden Indizes für Datenskizzen bereitgestellt:
Index | Für Datenskizze | Unterstützter Abfragetyp |
---|---|---|
MinHash LSH | MinHash, gewichteter MinHash | Jaccard-Schwelle |
MinHash LSH-Wald | MinHash, gewichteter MinHash | Jaccard Top-K |
MinHash LSH Ensemble | MinHash | Eindämmungsschwelle |
HNSW | Beliebig | Benutzerdefiniertes metrisches Top-K |
datasketch muss mit Python 3.7 oder höher, NumPy 1.11 oder höher und Scipy verwendet werden.
Beachten Sie, dass MinHash LSH und MinHash LSH Ensemble auch die Redis- und Cassandra-Speicherschicht unterstützen (siehe MinHash LSH at Scale).
So installieren Sie Datasketch mit pip
:
pip datasketch installieren
Dadurch wird auch NumPy als Abhängigkeit installiert.
So installieren Sie mit Redis-Abhängigkeit:
pip install datasketch[redis]
So installieren Sie mit Cassandra-Abhängigkeit:
pip install datasketch[cassandra]