[Papier] [中文解读] [Folien] [Video]
Die offizielle Umsetzung des Papiers „Parameter-Inverted Image Pyramid Networks“ (NeurIPS 2024 Spotlight)
TL;DR: Wir stellen die Parameter-Inverted Image Pyramid Networks (PIIP) vor, die ein Parameter-invertiertes Paradigma verwenden, das Modelle mit unterschiedlichen Parametergrößen verwendet, um unterschiedliche Auflösungsstufen der Bildpyramide zu verarbeiten, wodurch Rechenkosten gespart und gleichzeitig die Leistung verbessert wird.
Unterstützen Sie Aufgaben der object detection
, instance segmentation
, semantic segmentation
und image classification
.
Übertrifft Single-Branch-Methoden mit higher performance
und lower computation cost
.
Verbessern Sie die Leistung von InternViT-6B
bei der Objekterkennung um 2,0 % (55,8 %).
) bei gleichzeitiger Reduzierung der Rechenkosten um 62 %.
Bildpyramiden werden häufig in modernen Computer-Vision-Aufgaben verwendet, um mehrskalige Merkmale für ein präzises Verständnis von Bildern zu erhalten. Allerdings verarbeiten Bildpyramiden mehrere Bildauflösungen unter Verwendung desselben großen Modells, was einen erheblichen Rechenaufwand erfordert. Um dieses Problem zu lösen, schlagen wir eine neuartige Netzwerkarchitektur vor, die als Parameter-Inverted Image Pyramid Networks (PIIP) bekannt ist. Unsere Kernidee besteht darin, Modelle mit unterschiedlichen Parametergrößen zu verwenden, um unterschiedliche Auflösungsstufen der Bildpyramide zu verarbeiten und so Recheneffizienz und Leistung in Einklang zu bringen. Konkret handelt es sich bei der Eingabe für PIIP um einen Satz mehrskaliger Bilder, wobei Bilder mit höherer Auflösung von kleineren Netzwerken verarbeitet werden. Wir schlagen außerdem einen Feature-Interaktionsmechanismus vor, der es Features unterschiedlicher Auflösung ermöglicht, sich gegenseitig zu ergänzen und Informationen aus verschiedenen räumlichen Maßstäben effektiv zu integrieren. Umfangreiche Experimente zeigen, dass das PIIP im Vergleich zu herkömmlichen Bildpyramidenmethoden und Einzelzweignetzwerken eine überlegene Leistung bei Aufgaben wie Objekterkennung, Segmentierung und Bildklassifizierung erzielt und gleichzeitig die Rechenkosten senkt. Insbesondere wenn wir unsere Methode auf ein groß angelegtes Vision-Foundation-Modell InternViT-6B anwenden, verbessern wir dessen Leistung um 1–2 % bei der Erkennung und Segmentierung mit nur 40–60 % der ursprünglichen Berechnung. Diese Ergebnisse bestätigen die Wirksamkeit des PIIP-Ansatzes und bieten eine neue technische Richtung für zukünftige Vision-Computing-Aufgaben.
Anweisungen zur Installation, vorab trainierten Modellen, Schulung und Evaluierung finden Sie in den Readme-Dateien in den einzelnen Unterordnern:
mmErkennung
mmsegmentierung
Einstufung
Notiz :
Wir berichten über die Anzahl der Parameter und FLOPs des Backbones.
Die Ergebnisse in diesem Artikel wurden mit einer internen Codebasis erzielt, die möglicherweise eine etwas andere Leistung als dieses Repo aufweist (
).
Experimente mit InternViT-6B verwenden im Gegensatz zu denen in der Arbeit keine Fensteraufmerksamkeit.
Rückgrat | Detektor | Auflösung | Schd | Box-Karte | Maskierte Karte | #Param | #FLOPs | Herunterladen |
---|---|---|---|---|---|---|---|---|
ViT-B | Maske R-CNN | 1024 | 1x | 43,7 | 39.7 | 90M | 463G | Protokoll | ckpt | cfg |
PIIP-TSB | Maske R-CNN | 1120/896/448 | 1x | 43,6 | 38.7 | 146M | 243G | Protokoll | ckpt | cfg |
PIIP-TSB | Maske R-CNN | 1568/896/448 | 1x | 45,0 | 40.3 | 147M | 287G | Protokoll | ckpt | cfg |
PIIP-TSB | Maske R-CNN | 1568/1120/672 | 1x | 46,5 | 41.3 | 149M | 453G | Protokoll | ckpt | cfg |
ViT-L | Maske R-CNN | 1024 | 1x | 46,7 | 42,5 | 308M | 1542G | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | 1120/672/448 | 1x | 46,5 | 40.8 | 493M | 727G | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495M | 1002G | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | 1568/896/672 | 1x | 49.3 | 43,7 | 497M | 1464G | Protokoll | ckpt | cfg |
PIIP-TSBL | Maske R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506M | 755G | Protokoll | ckpt | cfg |
PIIP-TSBL | Maske R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507M | 861G | Protokoll | ckpt | cfg |
PIIP-TSBL | Maske R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | Protokoll | ckpt | cfg |
InternViT-6B | Maske R-CNN | 1024 | 1x | 53,8 | 48.1 | 5919M | 29323G | Protokoll | ckpt | cfg |
PIIP-H6B | Maske R-CNN | 1024/512 | 1x | 55,8 | 49,0 | 6872M | 11080G | Protokoll | ckpt | cfg |
Rückgrat | Detektor | Vortrainieren | Auflösung | Schd | Box-Karte | Maskierte Karte | Herunterladen |
---|---|---|---|---|---|---|---|
PIIP-SBL | Maske R-CNN | AugReg (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48,8 | 42.9 | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43,0 | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | DeiT III | 1568/1120/672 | 1x | 50,0 | 44.4 | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51,0 | 44.7 | Protokoll | ckpt | cfg |
PIIP-SBL | Maske R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | Protokoll | ckpt | cfg |
PIIP-SBL | DINO | DeiT III (384) | 1792/1120/672 | 3x | 57,8 | - | Protokoll | ckpt | cfg |
PIIP-H6B | DINO | MAE (H) + InternVL (6B) | 1024/768 | 1x | 60,0 | - | Protokoll | ckpt | cfg |
Rückgrat | Detektor | Auflösung | Schd | mioU | #Param | #FLOPs | Herunterladen |
---|---|---|---|---|---|---|---|
InternViT-6B | UperNet | 512 | 80.000 | 58,42 | 5910M | 6364G | Protokoll | ckpt | cfg |
PIIP-H6B | UperNet | 512/192 | 80.000 | 57,81 | 6745M | 1663G | Protokoll | ckpt | cfg |
PIIP-H6B | UperNet | 512/256 | 80.000 | 58,35 | 6745M | 2354G | Protokoll | ckpt | cfg |
PIIP-H6B | UperNet | 512/384 | 80.000 | 59,32 | 6746M | 4374G | Protokoll | ckpt | cfg |
PIIP-H6B | UperNet | 512/512 | 80.000 | 59,85 | 6747M | 7308G | Protokoll | ckpt | cfg |
Modell | Auflösung | #Param | #FLOPs | Top-1 Acc | Konfig | Herunterladen |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144M | 17,4G | 82.1 | config | Protokoll | ckpt |
PIIP-SBL | 320/160/96 | 489M | 39,0G | 85,2 | config | Protokoll | ckpt |
PIIP-SBL | 384/192/128 | 489M | 61,2G | 85,9 | config | Protokoll | ckpt |
Erkennungscode
Klassifizierungscode
Segmentierungscode
Wenn Sie diese Arbeit für Ihre Forschung hilfreich finden, denken Sie bitte darüber nach, diesem Repo einen Stern zu geben und unseren Artikel zu zitieren:
@article{piip, title={Parameter-Inverted Image Pyramid Networks}, Autor={Zhu, Xizhou und Yang, Xue und Wang, Zhaokai und Li, Hao und Dou, Wenhan und Ge, Junqi und Lu, Lewei und Qiao, Yu und Dai, Jifeng}, Zeitschrift={arXiv preprint arXiv:2406.04330}, Jahr={2024}}
Dieses Projekt wird unter der MIT-Lizenz veröffentlicht. Teile dieses Projekts enthalten Code und Modelle aus anderen Quellen, die der jeweiligen Lizenz unterliegen.
Unser Code basiert auf dem Code der folgenden Projekte: InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation und timm. Vielen Dank für ihre tolle Arbeit!