Antecedentes - Meme : En 2016, un meme se volvió viral que hacía a la gente una pregunta que probablemente nunca antes habían pensado que sería desafiante: ¿Puedes notar la diferencia entre estas imágenes que nunca antes pensaste que se parecían?
(fuente: Revista Elle, https://www.elle.com/culture/news/a34939/animals-or-food/)
Como dueño de un chihuahua, mi interés se centró en esta pareja:
Clasificación de imágenes de fondo : una afirmación que se hace a menudo sobre los algoritmos de clasificación de imágenes es que, aunque pueden distinguir rápidamente entre miles de imágenes con bastante buena precisión, un niño puede distinguir entre imágenes con mucha mayor precisión .
La cuestión de Chihuahua versus Blueberry Muffin me fascinó porque, en el caso de los ángulos de primer plano seleccionados para el meme, este no es un caso en el que un humano pueda distinguir fácilmente entre estas imágenes.
Planteamiento del problema : Después de construir un modelo de clasificación de imágenes que puede predecir si una imagen es de un chihuahua o de un Blueberry Muffin entrenada con fotografías alejadas claramente diferentes, ¿puede ese modelo de clasificación de imágenes predecir con precisión la clasificación de las desafiantes fotografías ampliadas del meme?
Comencé con una CNN entrenada desde cero con las imágenes extraídas. La precisión máxima que obtuve de esto fue del 85%. Luego incorporé Image Data Generation para aumentar el tamaño de mi entrenamiento. Esto no mejoró mi precisión pero sí aumentó la velocidad de ejecución del modelo. Finalmente, implementé el aprendizaje por transferencia y logré una precisión >99%.