image-match es un paquete simple (¡ahora Python 3!) para encontrar coincidencias de imágenes aproximadas de un corpus. Es similar, por ejemplo, a pHash, pero incluye una base de datos que se escala fácilmente a miles de millones de imágenes y admite altas tasas sostenidas de inserción de imágenes: ¡hasta 10,000 imágenes/s en nuestro clúster!
TENGA EN CUENTA: este algoritmo está destinado a encontrar imágenes casi duplicadas; piense en la detección de violaciones de derechos de autor. NO se pretende encontrar imágenes que sean conceptualmente similares. Para obtener más explicaciones, consulte este número o este vídeo.
Basado en el artículo Una firma de imagen para cualquier tipo de imagen , Wong et al. Existe una implementación de referencia que puede adaptarse mejor a sus necesidades.
La gente de Pavlov ha lanzado una excelente versión en contenedores de image-match para facilitar su escalado e implementación.
Una vez que esté en funcionamiento, lea estas dos (breves) secciones de la documentación para tener una idea de lo que image-match es capaz de hacer: