datasketch
v1.6.5
datasketch le brinda estructuras de datos probabilísticas que pueden procesar y buscar grandes cantidades de datos súper rápido, con poca pérdida de precisión.
Este paquete contiene los siguientes bocetos de datos:
Bosquejo de datos | Uso |
---|---|
MinHash | estimar la similitud y cardinalidad de Jaccard |
MinHash ponderado | estimar la similitud ponderada de Jaccard |
HyperLogLog | estimar la cardinalidad |
HiperLogLog++ | estimar la cardinalidad |
Se proporcionan los siguientes índices para bocetos de datos para admitir el tiempo de consulta sublineal:
Índice | Para boceto de datos | Tipo de consulta admitido |
---|---|---|
MinHash LSH | MinHash, MinHash ponderado | Umbral de Jaccard |
Bosque MinHash LSH | MinHash, MinHash ponderado | Jaccard Top-K |
Conjunto MinHash LSH | MinHash | Umbral de contención |
HNSW | Cualquier | Métrica personalizada Top-K |
datasketch debe usarse con Python 3.7 o superior, NumPy 1.11 o superior y Scipy.
Tenga en cuenta que MinHash LSH y MinHash LSH Ensemble también admiten la capa de almacenamiento Redis y Cassandra (consulte MinHash LSH a escala).
Para instalar datasketch usando pip
:
boceto de datos de instalación de pip
Esto también instalará NumPy como dependencia.
Para instalar con dependencia de Redis:
boceto de datos de instalación de pip [redis]
Para instalar con dependencia de Cassandra:
boceto de datos de instalación de pip [cassandra]