datasketch
v1.6.5
datasketch 为您提供概率数据结构,可以超快速地处理和搜索大量数据,而几乎不会损失准确性。
该包包含以下数据草图:
数据草图 | 用法 |
---|---|
最小哈希值 | 估计 Jaccard 相似度和基数 |
加权最小哈希值 | 估计加权杰卡德相似度 |
超级日志日志 | 估计基数 |
HyperLogLog++ | 估计基数 |
提供以下数据草图索引来支持次线性查询时间:
指数 | 对于数据草图 | 支持的查询类型 |
---|---|---|
最小哈希LSH | 最小哈希、加权最小哈希 | 杰卡德阈值 |
MinHash LSH 森林 | 最小哈希、加权最小哈希 | 杰卡Top-K |
MinHash LSH 集成 | 最小哈希值 | 遏制阈值 |
新南威尔士州 | 任何 | 自定义指标 Top-K |
datasketch 必须与 Python 3.7 或更高版本、NumPy 1.11 或更高版本以及 Scipy 一起使用。
请注意,MinHash LSH 和 MinHash LSH Ensemble 还支持 Redis 和 Cassandra 存储层(请参阅 MinHash LSH at Scale)。
使用pip
安装 datasketch :
pip 安装 datasketch
这还将安装 NumPy 作为依赖项。
要使用 Redis 依赖项进行安装:
pip install datasketch[redis]
要使用 Cassandra 依赖项进行安装:
pip 安装 datasketch[cassandra]