هذا هو تطبيق PyTorch لورقتنا "التلافيف الهرمي: إعادة التفكير في الشبكات العصبية التلافيفية للتعرف البصري". (لاحظ أن هذا هو رمز التعرف على الصور على ImageNet. لتجزئة/تحليل الصور الدلالية، راجع هذا المستودع: https://github.com/iduta/pyconvsegnet)
يمكن العثور على النماذج التي تم تدريبها على ImageNet هنا.
PyConv قادر على توفير إمكانات التعرف المحسنة عبر خط الأساس (راجع المقالة للحصول على التفاصيل).
الدقة في ImageNet (باستخدام إعدادات التدريب الافتراضية):
شبكة | 50 طبقة | 101 طبقات | 152 طبقة |
---|---|---|---|
ريسنيت | 76.12% (نموذج) | 78.00% (نموذج) | 78.45% (نموذج) |
PyConvHGResNet | 78.48 % (نموذج) | 79.22 % (نموذج) | 79.36 % (نموذج) |
PyConvResNet | 77.88 % (نموذج) | 79.01 % (نموذج) | 79.52 % (نموذج) |
يمكن تحسين الدقة في ImageNet بشكل كبير باستخدام إعدادات تدريب أكثر تعقيدًا (على سبيل المثال، استخدام زيادة البيانات الإضافية (CutMix)، وزيادة حجم bach إلى 1024، ومعدل التعلم 0.4، وجدولة جيب التمام على 300 حقبة، واستخدام الدقة المختلطة لتسريع التدريب ):
شبكة | اختبار المحاصيل: 224 × 224 | اختبار المحاصيل: 320 × 320 | |
---|---|---|---|
PyConvResNet-50 (+تعزيز) | 79.44 | 80.59 | (نموذج) |
PyConvResNet-101 (+تعزيز) | 80.58 | 81.49 | (نموذج) |
قم بتثبيت مجموعة بيانات PyTorch وImageNet باتباع كود التدريب الرسمي لـ PyTorch ImageNet.
البديل السريع (دون الحاجة إلى تثبيت PyTorch ومكتبات التعلم العميق الأخرى) هو استخدام NVIDIA-Docker، وقد استخدمنا صورة الحاوية هذه.
لتدريب نموذج (على سبيل المثال، PyConvResNet مع 50 طبقة) باستخدام DataParallel، قم بتشغيل main.py
؛ تحتاج أيضًا إلى توفير result_path
(مسار الدليل حيث سيتم حفظ النتائج والسجلات) و-- --data
(المسار إلى مجموعة بيانات ImageNet):
result_path=/your/path/to/save/results/and/logs/
mkdir -p ${result_path}
python main.py
--data /your/path/to/ImageNet/dataset/
--result_path ${result_path}
--arch pyconvresnet
--model_depth 50
للتدريب باستخدام التدريب المتوازي للبيانات الموزعة متعددة المعالجة، اتبع الإرشادات الواردة في كود التدريب الرسمي لـ PyTorch ImageNet.
إذا وجدت عملنا مفيدًا، فيرجى مراعاة الاستشهاد بما يلي:
@article{duta2020pyramidal,
author = {Ionut Cosmin Duta and Li Liu and Fan Zhu and Ling Shao},
title = {Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition},
journal = {arXiv preprint arXiv:2006.11538},
year = {2020},
}