image-match é um pacote simples (agora Python 3!) Para encontrar correspondências aproximadas de imagens de um corpus. É semelhante, por exemplo, ao pHash, mas inclui um backend de banco de dados que pode ser facilmente dimensionado para bilhões de imagens e suporta altas taxas sustentadas de inserção de imagens: até 10.000 imagens/s em nosso cluster!
ATENÇÃO: Este algoritmo tem como objetivo encontrar imagens quase duplicadas - pense na detecção de violação de direitos autorais. NÃO se pretende encontrar imagens conceitualmente semelhantes. Para obter mais explicações, consulte este problema ou este vídeo.
Com base no artigo Uma assinatura de imagem para qualquer tipo de imagem , Wong et al. Existe uma implementação de referência existente que pode ser mais adequada às suas necessidades.
O pessoal da Pavlov lançou uma excelente versão em contêiner de correspondência de imagem para fácil dimensionamento e implantação.
Quando estiver tudo pronto, leia estas duas (breves) seções da documentação para ter uma ideia do que a correspondência de imagem é capaz: