datasketch
v1.6.5
O datasketch oferece estruturas de dados probabilísticas que podem processar e pesquisar grandes quantidades de dados com muita rapidez, com pouca perda de precisão.
Este pacote contém os seguintes esboços de dados:
Esboço de dados | Uso |
---|---|
MinHash | estimar similaridade e cardinalidade de Jaccard |
MinHash ponderado | estimar a similaridade ponderada de Jaccard |
HyperLogLog | estimar cardinalidade |
HyperLogLog++ | estimar cardinalidade |
Os seguintes índices para esboços de dados são fornecidos para dar suporte ao tempo de consulta sublinear:
Índice | Para esboço de dados | Tipo de consulta compatível |
---|---|---|
MinHash LSH | MinHash, MinHash ponderado | Limite de Jaccard |
Floresta MinHash LSH | MinHash, MinHash ponderado | Jaccard Top-K |
Conjunto MinHash LSH | MinHash | Limiar de Contenção |
HNSW | Qualquer | Métrica personalizada Top-K |
o datasketch deve ser usado com Python 3.7 ou superior, NumPy 1.11 ou superior e Scipy.
Observe que MinHash LSH e MinHash LSH Ensemble também suportam a camada de armazenamento Redis e Cassandra (consulte MinHash LSH em escala).
Para instalar o datasketch usando pip
:
pip instalar esboço de dados
Isso também instalará o NumPy como dependência.
Para instalar com dependência do Redis:
pip instalar esboço de dados[redis]
Para instalar com dependência Cassandra:
pip instalar esboço de dados[cassandra]