Hintergrund – Meme : Im Jahr 2016 ging ein Meme viral, das den Leuten eine Frage stellte, von der sie wahrscheinlich nie gedacht hätten, dass sie eine Herausforderung darstellen würde: Können Sie den Unterschied zwischen diesen Bildern erkennen, von denen Sie nie gedacht hätten, dass sie sich ähneln?
(Quelle: Elle Magazine, https://www.elle.com/culture/news/a34939/animals-or-food/)
Als Besitzer eines Chihuahua konzentrierte sich mein Interesse auf diese Paarung:
Hintergrund – Bildklassifizierung : Eine häufig gemachte Aussage über Bildklassifizierungsalgorithmen ist, dass sie zwar schnell und mit ziemlich guter Genauigkeit zwischen Tausenden von Bildern unterscheiden können, ein Kind jedoch mit viel besserer Genauigkeit zwischen Bildern unterscheiden kann.
Die Frage „Chihuahua versus Blueberry Muffin“ hat mich fasziniert, weil – im Fall der besonderen Nahaufnahmen, die für das Meme ausgewählt wurden – ein Mensch diese Bilder nicht leicht unterscheiden kann.
Problemstellung : Kann dieses Bildklassifizierungsmodell nach der Erstellung eines Bildklassifizierungsmodells, das vorhersagen kann, ob es sich bei einem Bild um einen Chihuahua oder einen Blaubeermuffin handelt, der auf deutlich verkleinerten Fotos trainiert wurde, die Klassifizierung für die anspruchsvollen vergrößerten Fotos aus dem Meme genau vorhersagen?
Ich begann mit einem CNN, das von Grund auf auf den geschabten Bildern trainiert wurde. Die maximale Genauigkeit, die ich daraus ermittelt habe, betrug 85 %. Anschließend habe ich die Bilddatengenerierung integriert, um meinen Trainingsumfang zu erhöhen. Dies hat meine Genauigkeit nicht verbessert, aber die Geschwindigkeit beim Ausführen des Modells erhöht. Schließlich habe ich Transfer Learning implementiert und eine Genauigkeit von >99 % erreicht.