[ورقة] [中文解读] [الشرائح] [فيديو]
التنفيذ الرسمي لورقة "شبكات هرم الصور المقلوبة" (NeurIPS 2024 Spotlight)
TL;DR: نقدم شبكات هرم الصور المقلوبة (PIIP)، باستخدام نموذج معكوس المعلمات يستخدم نماذج ذات أحجام معلمات مختلفة لمعالجة مستويات دقة مختلفة لهرم الصورة، وبالتالي توفير تكلفة الحساب مع تحسين الأداء.
دعم مهام object detection
instance segmentation
semantic segmentation
image classification
.
يتفوق على أساليب الفرع الواحد higher performance
lower computation cost
.
تحسين أداء InternViT-6B
في الكشف عن الكائنات بنسبة 2.0% (55.8%)
) مع تقليل تكلفة الحساب بنسبة 62%.
تُستخدم أهرامات الصور بشكل شائع في مهام رؤية الكمبيوتر الحديثة للحصول على ميزات متعددة النطاق لفهم الصور بدقة. ومع ذلك، تقوم أهرامات الصور بمعالجة دقة متعددة للصور باستخدام نفس النموذج واسع النطاق، الأمر الذي يتطلب تكلفة حسابية كبيرة. للتغلب على هذه المشكلة، نقترح بنية شبكة جديدة تُعرف باسم شبكات هرم الصور المقلوبة (PIIP). فكرتنا الأساسية هي استخدام نماذج ذات أحجام معلمات مختلفة لمعالجة مستويات دقة مختلفة لهرم الصورة، وبالتالي تحقيق التوازن بين الكفاءة والأداء الحسابي. على وجه التحديد، الإدخال إلى PIIP عبارة عن مجموعة من الصور متعددة النطاق، حيث تتم معالجة الصور ذات الدقة الأعلى بواسطة شبكات أصغر. نقترح أيضًا آلية تفاعل الميزات للسماح للميزات ذات الدقة المختلفة بتكملة بعضها البعض ودمج المعلومات من النطاقات المكانية المختلفة بشكل فعال. توضح التجارب الموسعة أن PIIP يحقق أداءً فائقًا في مهام مثل اكتشاف الكائنات وتجزئة الصور وتصنيفها، مقارنةً بأساليب هرم الصور التقليدية والشبكات ذات الفرع الواحد، مع تقليل التكلفة الحسابية. والجدير بالذكر أنه عند تطبيق طريقتنا على نموذج أساس رؤية واسع النطاق InternViT-6B، قمنا بتحسين أدائه بنسبة 1%-2% عند الكشف والتجزئة مع 40%-60% فقط من الحساب الأصلي. تؤكد هذه النتائج فعالية نهج PIIP وتوفر اتجاهًا تقنيًا جديدًا لمهام حوسبة الرؤية المستقبلية.
للحصول على إرشادات حول التثبيت والنماذج المدربة مسبقًا والتدريب والتقييم، يرجى الرجوع إلى الملفات التمهيدية الموجودة أسفل كل مجلد فرعي:
mmdetection
mmsegmentation
تصنيف
ملحوظة :
نقوم بالإبلاغ عن عدد المعلمات والتخبطات في العمود الفقري.
تم الحصول على النتائج في الورقة باستخدام قاعدة تعليمات برمجية داخلية، والتي قد تظهر أداءً مختلفًا قليلاً عن هذا الريبو (
).
لا تستخدم التجارب التي تتضمن InternViT-6B انتباه النافذة، بشكل مختلف عن تلك الموجودة في الورقة.
العمود الفقري | الكاشف | دقة | Schd | خريطة الصندوق | خريطة القناع | #بارام | #التخبط | تحميل |
---|---|---|---|---|---|---|---|---|
فيتامين ب | قناع آر سي إن إن | 1024 | 1x | 43.7 | 39.7 | 90 م | 463 جرام | سجل | كبت | cfg |
PIIP-TSB | قناع آر سي إن إن | 1120/896/448 | 1x | 43.6 | 38.7 | 146 م | 243 جرام | سجل | كبت | cfg |
PIIP-TSB | قناع آر سي إن إن | 1568/896/448 | 1x | 45.0 | 40.3 | 147 م | 287 جرام | سجل | كبت | cfg |
PIIP-TSB | قناع آر سي إن إن | 1568/1120/672 | 1x | 46.5 | 41.3 | 149 م | 453 جرام | سجل | كبت | cfg |
فيتامين-L | قناع آر سي إن إن | 1024 | 1x | 46.7 | 42.5 | 308 م | 1542 م | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | 1120/672/448 | 1x | 46.5 | 40.8 | 493 م | 727 جرام | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | 1344/896/448 | 1x | 48.3 | 42.7 | 495 م | 1002 جرام | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | 1568/896/672 | 1x | 49.3 | 43.7 | 497 م | 1464 م | سجل | كبت | cfg |
PIIP-TSBL | قناع آر سي إن إن | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506 م | 755 جرام | سجل | كبت | cfg |
PIIP-TSBL | قناع آر سي إن إن | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507 م | 861 جرام | سجل | كبت | cfg |
PIIP-TSBL | قناع آر سي إن إن | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512 م | 1535 جرام | سجل | كبت | cfg |
إنترفيت-6B | قناع آر سي إن إن | 1024 | 1x | 53.8 | 48.1 | 5919 م | 29323ز | سجل | كبت | cfg |
بيب-H6B | قناع آر سي إن إن | 1024/512 | 1x | 55.8 | 49.0 | 6872 م | 11080 جرام | سجل | كبت | cfg |
العمود الفقري | الكاشف | التدريب المسبق | دقة | Schd | خريطة الصندوق | خريطة القناع | تحميل |
---|---|---|---|---|---|---|---|
PIIP-SBL | قناع آر سي إن إن | أغسطس (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | ديت الثالث | 1568/1120/672 | 1x | 50.0 | 44.4 | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | سجل | كبت | cfg |
PIIP-SBL | قناع آر سي إن إن | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | سجل | كبت | cfg |
PIIP-SBL | دينو | ديت الثالث (384) | 1792/1120/672 | 3x | 57.8 | - | سجل | كبت | cfg |
بيب-H6B | دينو | ماي (H) + إنترنفل (6B) | 1024/768 | 1x | 60.0 | - | سجل | كبت | cfg |
العمود الفقري | الكاشف | دقة | Schd | mIoU | #بارام | #التخبط | تحميل |
---|---|---|---|---|---|---|---|
إنترفيت-6B | أوبر نت | 512 | 80 ألف | 58.42 | 5910 م | 6364 جرام | سجل | كبت | cfg |
بيب-H6B | أوبر نت | 512/192 | 80 ألف | 57.81 | 6745 م | 1663 م | سجل | كبت | cfg |
بيب-H6B | أوبر نت | 512/256 | 80 ألف | 58.35 | 6745 م | 2354 جرام | سجل | كبت | cfg |
بيب-H6B | أوبر نت | 512/384 | 80 ألف | 59.32 | 6746 م | 4374 جرام | سجل | كبت | cfg |
بيب-H6B | أوبر نت | 512/512 | 80 ألف | 59.85 | 6747 م | 7308 جرام | سجل | كبت | cfg |
نموذج | دقة | #بارام | #التخبط | أعلى 1 لجنة التنسيق الإدارية | التكوين | تحميل |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144 م | 17.4 جرام | 82.1 | التكوين | سجل | ckpt |
PIIP-SBL | 320/160/96 | 489 م | 39.0 جرام | 85.2 | التكوين | سجل | ckpt |
PIIP-SBL | 384/192/128 | 489 م | 61.2 جرام | 85.9 | التكوين | سجل | ckpt |
رمز الكشف
رمز التصنيف
رمز التقسيم
إذا وجدت هذا العمل مفيدًا لبحثك، فيرجى التفكير في منح هذا الريبو نجمة والاستشهاد بمقالتنا:
@article{piip, title={شبكات هرم الصور المقلوبة}، المؤلف={Zhu وXizhou وYang وXue and Wang وZhaokai وLi وHao وDou وWenhan وGe وJunqi وLu وLewei وQiao وYu وداي، جيفنغ}، مجلة={arXiv preprint arXiv:2406.04330}, year={2024}}
تم إصدار هذا المشروع بموجب ترخيص MIT. تحتوي أجزاء من هذا المشروع على تعليمات برمجية ونماذج من مصادر أخرى، والتي تخضع للتراخيص الخاصة بها.
تم إنشاء الكود الخاص بنا بالرجوع إلى كود المشاريع التالية: InternVL-MMDetSeg، وViT-Adapter، وDeiT، وMMDetection، وMMSegmentation، وtimm. شكرا لعملهم الرائع!