datasketch vous offre des structures de données probabilistes capables de traiter et de rechercher une très grande quantité de données très rapidement, avec peu de perte de précision.
Ce package contient les croquis de données suivants :
Esquisse de données | Usage |
---|---|
MinHash | estimer la similarité et la cardinalité de Jaccard |
MinHash pondéré | estimer la similarité pondérée de Jaccard |
HyperLogLog | estimer la cardinalité |
HyperLogLog++ | estimer la cardinalité |
Les index suivants pour les esquisses de données sont fournis pour prendre en charge le temps de requête sous-linéaire :
Indice | Pour l'esquisse de données | Type de requête pris en charge |
---|---|---|
MinHash LSH | MinHash, MinHash pondéré | Seuil Jaccard |
Forêt MinHash LSH | MinHash, MinHash pondéré | Jaccard Top-K |
Ensemble MinHash LSH | MinHash | Seuil de confinement |
HNSW | N'importe lequel | Top-K métrique personnalisé |
datasketch doit être utilisé avec Python 3.7 ou supérieur, NumPy 1.11 ou supérieur et Scipy.
Notez que MinHash LSH et MinHash LSH Ensemble prennent également en charge les couches de stockage Redis et Cassandra (voir MinHash LSH à grande échelle).
Pour installer datasketch en utilisant pip
:
pip installer un croquis de données
Cela installera également NumPy en tant que dépendance.
Pour installer avec la dépendance Redis :
pip installer un croquis de données[redis]
Pour installer avec la dépendance Cassandra :
pip install datasketch[cassandra]