الخلفية - ميمي : في عام 2016، انتشر أحد الميمات على نطاق واسع وطرح على الأشخاص سؤالًا لم يعتقدوا على الأرجح أنه سيكون تحديًا من قبل: هل يمكنك معرفة الفرق بين هذه الصور التي لم تعتقد أنها متشابهة من قبل؟
(المصدر: مجلة إيل، https://www.elle.com/culture/news/a34939/animals-or-food/)
باعتباري مالك كلب تشيهواهوا، ركز اهتمامي على هذا الاقتران:
الخلفية - تصنيف الصور : العبارة التي غالبًا ما تُقال حول خوارزميات تصنيف الصور هي أنه على الرغم من قدرتها على التمييز بسرعة بين آلاف الصور بدقة جيدة جدًا ، إلا أن الطفل يمكنه التمييز بين الصور بدقة أفضل بكثير .
أذهلتني مسألة Chihuahua مقابل Blueberry Muffin لأنه - في حالة الزوايا القريبة المحددة المحددة للميم - هذه ليست حالة يمكن فيها للإنسان التمييز بسهولة بين هذه الصور.
بيان المشكلة : بعد إنشاء نموذج لتصنيف الصور يمكنه التنبؤ بما إذا كانت الصورة لكلب تشيهواهوا أو فطيرة التوت الأزرق المدربة على تصغير صور مختلفة بشكل واضح، هل يمكن لنموذج تصنيف الصور هذا أن يتنبأ بدقة بتصنيف الصور المكبرة الصعبة من الميم؟
لقد بدأت مع شبكة CNN التي تم تدريبها من الصفر على الصور المحذوفة. أقصى دقة جمعتها من هذا كانت 85%. ثم قمت بعد ذلك بدمج إنشاء بيانات الصور لزيادة حجم التدريب الخاص بي. لم يؤدي هذا إلى تحسين دقتي ولكنه أدى إلى زيادة سرعة تشغيل النموذج. وأخيرًا، قمت بتنفيذ نقل التعلم وحققت دقة تزيد عن 99%.