datasketch
v1.6.5
datasketch は、精度をほとんど損なうことなく、非常に大量のデータを超高速に処理および検索できる確率的データ構造を提供します。
このパッケージには次のデータ スケッチが含まれています。
データスケッチ | 使用法 |
---|---|
ミンハッシュ | Jaccard の類似性と濃度を推定する |
加重ミンハッシュ | 重み付けされた Jaccard 類似度を推定する |
ハイパーログログ | カーディナリティの推定 |
ハイパーログログ++ | カーディナリティの推定 |
サブリニアなクエリ時間をサポートするために、データ スケッチの次のインデックスが提供されています。
索引 | データスケッチ用 | サポートされているクエリの種類 |
---|---|---|
ミンハッシュ LSH | MinHash、重み付き MinHash | ジャカードしきい値 |
ミンハッシュ LSH フォレスト | MinHash、重み付き MinHash | ジャカードトップK |
ミンハッシュ LSH アンサンブル | ミンハッシュ | 封じ込めの閾値 |
ニューサウスウェールズ州 | どれでも | カスタム メトリック Top-K |
datasketch は、Python 3.7 以降、NumPy 1.11 以降、および Scipy で使用する必要があります。
MinHash LSH と MinHash LSH Ensemble は Redis と Cassandra ストレージ レイヤーもサポートしていることに注意してください (MinHash LSH at Scale を参照)。
pip
使用して datasketch をインストールするには:
pip インストール データスケッチ
これにより、NumPy も依存関係としてインストールされます。
Redis 依存関係を使用してインストールするには:
pip インストール データスケッチ[redis]
Cassandra 依存関係を使用してインストールするには:
pip install datasketch[cassandra]