datasketch
v1.6.5
datasketch предоставляет вам вероятностные структуры данных, которые могут очень быстро обрабатывать и искать очень большие объемы данных с небольшой потерей точности.
Этот пакет содержит следующие эскизы данных:
Эскиз данных | Использование |
---|---|
Минхеш | оценить сходство и мощность Жаккара |
Взвешенный минхэш | оценить взвешенное сходство Жаккара |
Гиперлоглог | оценить мощность |
Гиперлоглог++ | оценить мощность |
Для поддержки сублинейного времени запроса предусмотрены следующие индексы для эскизов данных:
Индекс | Для эскиза данных | Поддерживаемый тип запроса |
---|---|---|
Минхеш LSH | Минхеш, взвешенный минхэш | Жаккардовый порог |
Минхэш-лес LSH | Минхеш, взвешенный минхэш | Жаккард Топ-К |
Ансамбль MinHash LSH | Минхеш | Порог сдерживания |
HNSW | Любой | Пользовательская метрика Top-K |
datasketch необходимо использовать с Python 3.7 или выше, NumPy 1.11 или выше и Scipy.
Обратите внимание, что MinHash LSH и MinHash LSH Ensemble также поддерживают уровень хранения Redis и Cassandra (см. MinHash LSH в масштабировании).
Чтобы установить datasketch с помощью pip
:
эскиз данных установки pip
Это также установит NumPy в качестве зависимости.
Чтобы установить с зависимостью Redis:
pip install datasketch [redis]
Для установки с зависимостью Cassandra:
pip install datasketch [Кассандра]