นี่คือการใช้งาน PyTorch ในเอกสารของเราเรื่อง "Pyramidal Convolution: การคิดใหม่เกี่ยวกับโครงข่ายประสาทเทียมแบบ Convolutional เพื่อการรู้จำภาพ" (โปรดทราบว่านี่คือรหัสสำหรับการจดจำรูปภาพบน ImageNet สำหรับการแบ่งส่วน/การแยกวิเคราะห์รูปภาพเชิงความหมาย โปรดดูที่ที่เก็บนี้: https://github.com/iduta/pyconvsegnet )
สามารถดูโมเดลที่ได้รับการฝึกบน ImageNet ได้ที่นี่
PyConv สามารถมอบความสามารถในการจดจำที่ได้รับการปรับปรุงให้ดีขึ้นเหนือพื้นฐาน (ดูรายละเอียดในเอกสาร)
ความแม่นยำของ ImageNet (โดยใช้การตั้งค่าการฝึกเริ่มต้น):
เครือข่าย | 50 ชั้น | 101 ชั้น | 152 ชั้น |
---|---|---|---|
เรสเน็ต | 76.12% (รุ่น) | 78.00% (รุ่น) | 78.45% (รุ่น) |
PyConvHGResNet | 78.48 % (รุ่น) | 79.22 % (รุ่น) | 79.36 % (รุ่น) |
PyConvResNet | 77.88 % (รุ่น) | 79.01 % (รุ่น) | 79.52 % (รุ่น) |
ความแม่นยำบน ImageNet สามารถปรับปรุงได้อย่างมากโดยใช้การตั้งค่าการฝึกที่ซับซ้อนมากขึ้น (เช่น การใช้การเพิ่มข้อมูลเพิ่มเติม (CutMix) เพิ่มขนาด Bach เป็น 1024 อัตราการเรียนรู้ 0.4 ตัวกำหนดตารางเวลาโคไซน์มากกว่า 300 epochs และใช้ความแม่นยำแบบผสมเพื่อเร่งความเร็วการฝึก ):
เครือข่าย | ครอบตัดทดสอบ: 224×224 | ครอบตัดทดสอบ: 320×320 | |
---|---|---|---|
PyConvResNet-50 (+ส่วนเสริม) | 79.44 | 80.59 | (แบบอย่าง) |
PyConvResNet-101 (+เพิ่ม) | 80.58 | 81.49 | (แบบอย่าง) |
ติดตั้งชุดข้อมูล PyTorch และ ImageNet ตามโค้ดการฝึกอบรม PyTorch ImageNet อย่างเป็นทางการ
ทางเลือกที่รวดเร็ว (โดยไม่จำเป็นต้องติดตั้ง PyTorch และไลบรารีการเรียนรู้เชิงลึกอื่นๆ) คือการใช้ NVIDIA-Docker เราใช้คอนเทนเนอร์อิมเมจนี้
หากต้องการฝึกโมเดล (เช่น PyConvResNet ที่มี 50 เลเยอร์) โดยใช้ DataParallel ให้รัน main.py
คุณต้องระบุ result_path
(เส้นทางไดเรกทอรีที่จะบันทึกผลลัพธ์และบันทึก) และ --data
(เส้นทางไปยังชุดข้อมูล ImageNet):
result_path=/your/path/to/save/results/and/logs/
mkdir -p ${result_path}
python main.py
--data /your/path/to/ImageNet/dataset/
--result_path ${result_path}
--arch pyconvresnet
--model_depth 50
หากต้องการฝึกอบรมโดยใช้การฝึกอบรมแบบขนานของข้อมูลแบบกระจายการประมวลผลหลายตัว ให้ทำตามคำแนะนำในโค้ดการฝึกอบรม PyTorch ImageNet อย่างเป็นทางการ
หากคุณพบว่างานของเรามีประโยชน์ โปรดพิจารณาการอ้างอิง:
@article{duta2020pyramidal,
author = {Ionut Cosmin Duta and Li Liu and Fan Zhu and Ling Shao},
title = {Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition},
journal = {arXiv preprint arXiv:2006.11538},
year = {2020},
}