image-match — это простой (теперь Python 3!) пакет для поиска приблизительных совпадений изображений в корпусе. Он похож, например, на pHash, но включает в себя серверную часть базы данных, которая легко масштабируется до миллиардов изображений и поддерживает устойчивую высокую скорость вставки изображений: до 10 000 изображений в секунду в нашем кластере!
ОБРАТИТЕ ВНИМАНИЕ: этот алгоритм предназначен для поиска почти повторяющихся изображений — например, для обнаружения нарушений авторских прав. Он НЕ предназначен для поиска концептуально схожих изображений. Дополнительные сведения см. в этой проблеме или в этом видео.
На основе статьи «Подпись изображения для любого типа изображения » Wong et al. Существует существующая эталонная реализация, которая может больше соответствовать вашим потребностям.
Ребята из Pavlov выпустили отличную контейнерную версию image-match для простого масштабирования и развертывания.
После того, как вы приступите к работе, прочтите эти два (коротких) раздела документации, чтобы понять, на что способен image-match: