datasketch
v1.6.5
datasketch 為您提供機率資料結構,可以超快速地處理和搜尋大量數據,而幾乎不會損失準確性。
該套件包含以下數據草圖:
數據草圖 | 用法 |
---|---|
最小哈希值 | 估計 Jaccard 相似度和基數 |
加權最小雜湊值 | 估計加權杰卡德相似度 |
超級日誌日誌 | 估計基數 |
HyperLogLog++ | 估計基數 |
提供以下資料草圖索引來支援次線性查詢時間:
指數 | 對於數據草圖 | 支援的查詢類型 |
---|---|---|
最小哈希LSH | 最小哈希、加權最小哈希 | 杰卡德閾值 |
MinHash LSH 森林 | 最小哈希、加權最小哈希 | 杰卡Top-K |
MinHash LSH 集成 | 最小哈希值 | 遏止閾值 |
新南威爾斯州 | 任何 | 自訂指標 Top-K |
datasketch 必須與 Python 3.7 或更高版本、NumPy 1.11 或更高版本以及 Scipy 一起使用。
請注意,MinHash LSH 和 MinHash LSH Ensemble 也支援 Redis 和 Cassandra 儲存層(請參閱 MinHash LSH at Scale)。
使用pip
安裝 datasketch :
pip 安裝 datasketch
這也將安裝 NumPy 作為依賴項。
要使用 Redis 依賴項進行安裝:
pip install datasketch[redis]
要使用 Cassandra 依賴項進行安裝:
pip 安裝 datasketch[cassandra]