تنفيذ نماذج التعليق على الصور العصبية باستخدام PyTorch استنادًا إلى بنية وحدة فك ترميز التشفير.
مجموعة البيانات هي Flikr8k، وهي صغيرة بما يكفي لحساب الميزانية والحصول على النتائج بسرعة. يوجد ضمن مجموعة البيانات 8091 صورة، مع 5 تعليقات لكل صورة. وبالتالي فهو عرضة للتجاوز إذا كان النموذج معقدًا للغاية. المصدر الرسمي معطل، يمكن أن تكون هناك روابط أخرى لمجموعة البيانات هنا وهنا
يتم وصف بنية النموذج على النحو التالي. شبكة تشفير الصورة هي Resnet-101 (يمكن تحميلها من torchvision). وحدة فك التشفير هي في الأساس نموذج لغة قائم على LSTM، مع ناقل السياق (ميزة الصورة المشفرة) كحالة أولية مخفية/خلية لـ LSTM [1]. يتم أيضًا تنفيذ النموذج اليقظ [2].
يتم تدريب النموذج بواسطة SGD بزخم. يبدأ معدل التعلم من 0.01 ويقسم على 10 كما هو عالق في الهضبة. تم استخدام الزخم 0.9 واضمحلال الوزن 0.001.
يمكن للنموذج [1] الحصول على أوصاف معقولة نسبيًا، حيث حصلت درجة اختبار BLEU-1 على 35.7.
الصور | التسميات التوضيحية |
---|---|
يلعب كلبان في العشب. | |
شخص يركب قوارب الكاياك في القارب. | |
صبي يرش في بركة. | |
شخصان يجلسان على الرصيف بجانب الماء. | |
لاعب كرة قدم يرتدي زيًا أحمر يركض بكرة قدم أمام حشد من الناس. | |
متزلج على الجليد يقفز من أعلى التل. | |
كلب بني يلعب بالكرة في الرمال. | |
صبي يرتدي قميصًا أزرق يركض في حقل عشبي. | |
مجموعة من الأشخاص يرتدون أزياء ملونة. |
بيتورتش 0.4.1
[1] اعرض وأخبر: مولد التسميات التوضيحية للصور العصبية (https://arxiv.org/abs/1411.4555)
[2] العرض والحضور والتحدث: إنشاء التسميات التوضيحية للصور العصبية مع الاهتمام البصري (https://arxiv.org/abs/1502.03044)