datasketch
v1.6.5
datasketch는 정확성을 거의 유지하면서 매우 빠른 속도로 대량의 데이터를 처리하고 검색할 수 있는 확률적 데이터 구조를 제공합니다.
이 패키지에는 다음과 같은 데이터 스케치가 포함되어 있습니다.
데이터 스케치 | 용법 |
---|---|
민해시 | Jaccard 유사성 및 카디널리티 추정 |
가중 최소 해시 | 가중 Jaccard 유사성 추정 |
하이퍼로그로그 | 카디널리티 추정 |
하이퍼로그로그++ | 카디널리티 추정 |
하위 선형 쿼리 시간을 지원하기 위해 다음과 같은 데이터 스케치 인덱스가 제공됩니다.
색인 | 데이터 스케치의 경우 | 지원되는 쿼리 유형 |
---|---|---|
민해시 LSH | MinHash, 가중 MinHash | 자카드 임계값 |
MinHash LSH 숲 | MinHash, 가중 MinHash | 자카드 탑케이 |
MinHash LSH 앙상블 | 민해시 | 봉쇄 임계값 |
HNSW | 어느 | 맞춤 측정항목 Top-K |
datasketch는 Python 3.7 이상, NumPy 1.11 이상 및 Scipy와 함께 사용해야 합니다.
MinHash LSH 및 MinHash LSH Ensemble은 Redis 및 Cassandra 스토리지 계층도 지원합니다(규모의 MinHash LSH 참조).
pip
사용하여 데이터 스케치를 설치하려면 다음을 수행하십시오.
pip 설치 데이터 스케치
그러면 NumPy도 종속성으로 설치됩니다.
Redis 종속성을 사용하여 설치하려면 다음 안내를 따르세요.
pip 설치 데이터 스케치[redis]
Cassandra 종속성을 사용하여 설치하려면 다음 안내를 따르세요.
pip 설치 데이터 스케치[cassandra]