Contexte - Mème : En 2016, un mème est devenu viral qui posait aux gens une question qu'ils n'auraient probablement jamais pensé être un défi auparavant : pouvez-vous faire la différence entre ces images dont vous n'aviez jamais pensé qu'elles se ressemblaient ?
(source : Elle Magazine, https://www.elle.com/culture/news/a34939/animals-or-food/)
En tant que propriétaire d'un Chihuahua, mon intérêt s'est porté sur ce couple :
Contexte - Classification des images : Une affirmation souvent faite à propos des algorithmes de classification d'images est que même s'ils peuvent distinguer rapidement des milliers d'images avec une assez bonne précision, un enfant peut distinguer entre des images avec une bien meilleure précision .
La question de Chihuahua contre Blueberry Muffin m'a fasciné parce que - dans le cas des angles de gros plan particuliers sélectionnés pour le mème - ce n'est pas un cas où un humain peut facilement distinguer ces images.
Énoncé du problème : après avoir construit un modèle de classification d'images capable de prédire si une image est celle d'un chihuahua ou d'un muffin aux bleuets formé sur des photos distinctes avec un zoom arrière, ce modèle de classification d'images peut-il prédire avec précision la classification des photos zoomées difficiles du mème ?
J'ai commencé avec un CNN formé de toutes pièces sur les images grattées. La précision maximale que j’en ai obtenue était de 85 %. J'ai ensuite intégré la génération de données d'image pour augmenter la taille de ma formation. Cela n'a pas amélioré ma précision mais a augmenté la vitesse d'exécution du modèle. Enfin, j'ai mis en œuvre l'apprentissage par transfert et obtenu une précision supérieure à 99 %.