[กระดาษ] [中文解读] [สไลด์] [วิดีโอ]
การดำเนินการอย่างเป็นทางการของรายงาน "Parameter-Inverted Image Pyramid Networks" (NeurIPS 2024 Spotlight)
TL; DR: เราขอแนะนำ Paradigm-Inverted Image Pyramid Networks (PIIP) โดยใช้กระบวนทัศน์แบบกลับด้านพารามิเตอร์ที่ใช้แบบจำลองที่มีขนาดพารามิเตอร์ต่างกันเพื่อประมวลผลระดับความละเอียดที่แตกต่างกันของปิรามิดรูปภาพ ซึ่งช่วยประหยัดค่าใช้จ่ายในการคำนวณไปพร้อมๆ กับการเพิ่มประสิทธิภาพการทำงาน
สนับสนุนงาน object detection
instance segmentation
semantic segmentation
และ image classification
เหนือกว่าวิธีการแบบสาขาเดียวด้วย higher performance
และ lower computation cost
ปรับปรุงประสิทธิภาพของ InternViT-6B
ในการตรวจจับวัตถุ 2.0% (55.8%
) ในขณะที่ลดต้นทุนการคำนวณลง 62%
ปิรามิดรูปภาพมักใช้ในงานคอมพิวเตอร์วิทัศน์สมัยใหม่เพื่อให้ได้คุณสมบัติหลายขนาดเพื่อให้เข้าใจรูปภาพได้อย่างแม่นยำ อย่างไรก็ตาม ปิระมิดภาพจะประมวลผลภาพที่มีความละเอียดหลายระดับโดยใช้แบบจำลองขนาดใหญ่เดียวกัน ซึ่งต้องใช้ต้นทุนในการคำนวณจำนวนมาก เพื่อแก้ไขปัญหานี้ เราขอเสนอสถาปัตยกรรมเครือข่ายใหม่ที่เรียกว่า เครือข่ายพีระมิดภาพกลับด้านพารามิเตอร์ (PIIP) แนวคิดหลักของเราคือการใช้แบบจำลองที่มีขนาดพารามิเตอร์ต่างกันเพื่อประมวลผลระดับความละเอียดที่แตกต่างกันของปิรามิดรูปภาพ ดังนั้นจึงทำให้ประสิทธิภาพและประสิทธิภาพในการคำนวณสมดุลกัน โดยเฉพาะอย่างยิ่ง อินพุตไปยัง PIIP คือชุดของรูปภาพหลายขนาด โดยที่รูปภาพที่มีความละเอียดสูงกว่าจะถูกประมวลผลโดยเครือข่ายขนาดเล็ก เรายังเสนอกลไกการโต้ตอบของฟีเจอร์เพื่อให้ฟีเจอร์ที่มีความละเอียดต่างกันมาเสริมซึ่งกันและกันและบูรณาการข้อมูลจากขนาดเชิงพื้นที่ที่แตกต่างกันได้อย่างมีประสิทธิภาพ การทดลองอย่างกว้างขวางแสดงให้เห็นว่า PIIP บรรลุประสิทธิภาพที่เหนือกว่าในงานต่างๆ เช่น การตรวจจับวัตถุ การแบ่งส่วน และการจำแนกภาพ เมื่อเปรียบเทียบกับวิธีพีระมิดรูปภาพแบบดั้งเดิมและเครือข่ายสาขาเดียว ในขณะที่ลดต้นทุนการคำนวณ โดยเฉพาะอย่างยิ่ง เมื่อใช้วิธีการของเรากับโมเดลพื้นฐานการมองเห็นขนาดใหญ่ InternViT-6B เราจะปรับปรุงประสิทธิภาพขึ้น 1%-2% ในการตรวจจับและการแบ่งส่วนด้วยเพียง 40%-60% ของการคำนวณดั้งเดิม ผลลัพธ์เหล่านี้จะตรวจสอบประสิทธิผลของแนวทาง PIIP และมอบทิศทางทางเทคนิคใหม่สำหรับงานการประมวลผลด้วยการมองเห็นในอนาคต
สำหรับคำแนะนำในการติดตั้ง รุ่นที่ได้รับการฝึกอบรม การฝึกอบรม และการประเมินผล โปรดดูไฟล์ Readme ใต้แต่ละโฟลเดอร์ย่อย:
มิลลิเมตรการตรวจจับ
การแบ่งส่วนมม
การจำแนกประเภท
บันทึก :
เรารายงานจำนวนพารามิเตอร์และ FLOP ของกระดูกสันหลัง
ผลลัพธ์ในรายงานได้รับมาจากโค้ดเบสภายใน ซึ่งอาจแสดงประสิทธิภาพที่แตกต่างไปจากการซื้อคืนนี้เล็กน้อย (
-
การทดลองที่เกี่ยวข้องกับ InternViT-6B ไม่ได้ใช้การสนใจแบบหน้าต่าง ซึ่งแตกต่างจากการทดลองในรายงาน
กระดูกสันหลัง | เครื่องตรวจจับ | ปณิธาน | Schd | กล่องเอ็มเอพี | หน้ากากแมป | #พาราม | #ฟล็อปส์ | ดาวน์โหลด |
---|---|---|---|---|---|---|---|---|
ไวที-บี | หน้ากาก R-CNN | 1,024 | 1x | 43.7 | 39.7 | 90ม | 463ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-TSB | หน้ากาก R-CNN | 1120/896/448 | 1x | 43.6 | 38.7 | 146ม | 243ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-TSB | หน้ากาก R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 147ม | 287ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-TSB | หน้ากาก R-CNN | 1568/1120/672 | 1x | 46.5 | 41.3 | 149ม | 453ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
ไวที-แอล | หน้ากาก R-CNN | 1,024 | 1x | 46.7 | 42.5 | 308ม | 1542ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | 1120/672/448 | 1x | 46.5 | 40.8 | 493ม | 727ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495ม | 1002G | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | 1568/896/672 | 1x | 49.3 | 43.7 | 497ม | 1464ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-TSBL | หน้ากาก R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506ม | 755G | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-TSBL | หน้ากาก R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507ม | 861ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-TSBL | หน้ากาก R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512ม | 1535ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
InternViT-6B | หน้ากาก R-CNN | 1,024 | 1x | 53.8 | 48.1 | 5919M | 29323G | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-H6B | หน้ากาก R-CNN | 1024/512 | 1x | 55.8 | 49.0 | 6872M | 11080G | เข้าสู่ระบบ | ซีเคพีที | CFG |
กระดูกสันหลัง | เครื่องตรวจจับ | ฝึกล่วงหน้า | ปณิธาน | Schd | กล่องเอ็มเอพี | หน้ากากแมป | ดาวน์โหลด |
---|---|---|---|---|---|---|---|
PIIP-SBL | หน้ากาก R-CNN | ส.ค. (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | DeiT III (S) + แม่ (BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | เดต III | 1568/1120/672 | 1x | 50.0 | 44.4 | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | เดอิท III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | หน้ากาก R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-SBL | ไดโน | เดตที่ 3 (384) | 1792/1120/672 | 3x | 57.8 | - | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-H6B | ไดโน | แม่ (H) + InternVL (6B) | 1024/768 | 1x | 60.0 | - | เข้าสู่ระบบ | ซีเคพีที | CFG |
กระดูกสันหลัง | เครื่องตรวจจับ | ปณิธาน | Schd | มิวยู | #พาราม | #ฟล็อปส์ | ดาวน์โหลด |
---|---|---|---|---|---|---|---|
InternViT-6B | อัปเปอร์เน็ต | 512 | 80,000 | 58.42 | 5910M | 6364G | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-H6B | อัปเปอร์เน็ต | 512/192 | 80,000 | 57.81 | 6745M | 1663ก | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-H6B | อัปเปอร์เน็ต | 512/256 | 80,000 | 58.35 | 6745M | 2354G | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-H6B | อัปเปอร์เน็ต | 512/384 | 80,000 | 59.32 | 6746M | 4374G | เข้าสู่ระบบ | ซีเคพีที | CFG |
PIIP-H6B | อัปเปอร์เน็ต | 512/512 | 80,000 | 59.85 | 6747M | 7308G | เข้าสู่ระบบ | ซีเคพีที | CFG |
แบบอย่าง | ปณิธาน | #พาราม | #ฟล็อปส์ | อันดับ 1 บัญชี | การกำหนดค่า | ดาวน์โหลด |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144ม | 17.4G | 82.1 | กำหนดค่า | เข้าสู่ระบบ | ซีเคพีที |
PIIP-SBL | 320/160/96 | 489ม | 39.0G | 85.2 | กำหนดค่า | เข้าสู่ระบบ | ซีเคพีที |
PIIP-SBL | 384/192/128 | 489ม | 61.2G | 85.9 | กำหนดค่า | เข้าสู่ระบบ | ซีเคพีที |
รหัสการตรวจจับ
รหัสการจำแนกประเภท
รหัสการแบ่งส่วน
หากคุณพบว่างานนี้มีประโยชน์สำหรับการวิจัยของคุณ โปรดพิจารณาให้ดาวแก่ Repo นี้และอ้างอิงรายงานของเรา:
@article{piip, title={Parameter-Inverted Image Pyramid Networks}, ผู้แต่ง={Zhu, Xizhou และ Yang, Xue และ Wang, Zhaokai และ Li, Hao และ Dou, Wenhan และ Ge, Junqi และ Lu, Lewei และ Qiao, Yu และ Dai, Jifeng}, Journal={arXiv preprint arXiv:2406.04330}, year={2024}}
โครงการนี้เผยแพร่ภายใต้ใบอนุญาต MIT บางส่วนของโปรเจ็กต์นี้มีโค้ดและโมเดลจากแหล่งอื่น ซึ่งอยู่ภายใต้ใบอนุญาตที่เกี่ยวข้อง
รหัสของเราสร้างขึ้นโดยอ้างอิงถึงรหัสของโปรเจ็กต์ต่อไปนี้: InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation และ timm ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา!