[Papier] [中文解读] [Diapositives] [Vidéo]
La mise en œuvre officielle de l'article "Réseaux de pyramides d'images inversées à paramètres" (NeurIPS 2024 Spotlight)
TL;DR : Nous introduisons les réseaux de pyramides d'images à paramètres inversés (PIIP), qui utilisent un paradigme à paramètres inversés qui utilise des modèles avec différentes tailles de paramètres pour traiter différents niveaux de résolution de la pyramide d'images, économisant ainsi les coûts de calcul tout en améliorant les performances.
Prend en charge les tâches de object detection
, instance segmentation
, semantic segmentation
et image classification
.
Surpasse les méthodes à branche unique avec higher performance
et lower computation cost
.
Améliorer les performances d' InternViT-6B
sur la détection d'objets de 2,0 % (55,8 %
) tout en réduisant le coût de calcul de 62 %.
Les pyramides d'images sont couramment utilisées dans les tâches de vision par ordinateur modernes pour obtenir des fonctionnalités multi-échelles permettant une compréhension précise des images. Cependant, les pyramides d'images traitent plusieurs résolutions d'images en utilisant le même modèle à grande échelle, ce qui nécessite un coût de calcul important. Pour surmonter ce problème, nous proposons une nouvelle architecture de réseau connue sous le nom de réseaux à pyramide d'images à paramètres inversés (PIIP). Notre idée principale est d'utiliser des modèles avec différentes tailles de paramètres pour traiter différents niveaux de résolution de la pyramide d'images, équilibrant ainsi l'efficacité et les performances de calcul. Plus précisément, l’entrée du PIIP est un ensemble d’images multi-échelles, dans lesquelles les images à plus haute résolution sont traitées par des réseaux plus petits. Nous proposons en outre un mécanisme d'interaction de fonctionnalités pour permettre à des fonctionnalités de différentes résolutions de se compléter et d'intégrer efficacement des informations provenant de différentes échelles spatiales. Des expériences approfondies démontrent que le PIIP atteint des performances supérieures dans des tâches telles que la détection d'objets, la segmentation et la classification d'images, par rapport aux méthodes traditionnelles de pyramide d'images et aux réseaux à branche unique, tout en réduisant les coûts de calcul. Notamment, en appliquant notre méthode sur un modèle de base de vision à grande échelle InternViT-6B, nous améliorons ses performances de 1 à 2 % en matière de détection et de segmentation avec seulement 40 à 60 % du calcul d'origine. Ces résultats valident l'efficacité de l'approche PIIP et fournissent une nouvelle orientation technique pour les futures tâches de calcul de vision.
Pour obtenir des instructions sur l'installation, les modèles pré-entraînés, la formation et l'évaluation, veuillez vous référer aux fichiers Lisez-moi sous chaque sous-dossier :
mmdétection
segmentation mm
classification
Note :
Nous rapportons le nombre de paramètres et de FLOP du backbone.
Les résultats de l'article ont été obtenus avec une base de code interne, qui peut présenter des performances légèrement différentes de celles de ce dépôt (
).
Les expériences impliquant InternViT-6B n’utilisent pas l’attention de la fenêtre, contrairement à celles présentées dans l’article.
Colonne vertébrale | Détecteur | Résolution | Schd | Carte de la boîte | Masque carte | #Param | #FLOP | Télécharger |
---|---|---|---|---|---|---|---|---|
ViT-B | Masque R-CNN | 1024 | 1x | 43,7 | 39,7 | 90M | 463G | journal | chèque | cfg |
PIIP-BST | Masque R-CNN | 1120/896/448 | 1x | 43,6 | 38,7 | 146M | 243G | journal | chèque | cfg |
PIIP-BST | Masque R-CNN | 1568/896/448 | 1x | 45,0 | 40.3 | 147M | 287G | journal | chèque | cfg |
PIIP-BST | Masque R-CNN | 1568/1120/672 | 1x | 46,5 | 41.3 | 149M | 453G | journal | chèque | cfg |
ViT-L | Masque R-CNN | 1024 | 1x | 46,7 | 42,5 | 308M | 1542G | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | 1120/672/448 | 1x | 46,5 | 40,8 | 493M | 727G | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | 1344/896/448 | 1x | 48.3 | 42,7 | 495M | 1002G | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | 1568/896/672 | 1x | 49.3 | 43,7 | 497M | 1464G | journal | chèque | cfg |
PIIP-TSBL | Masque R-CNN | 1344/896/672/448 | 1x | 47.1 | 41,9 | 506M | 755G | journal | chèque | cfg |
PIIP-TSBL | Masque R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42,9 | 507M | 861G | journal | chèque | cfg |
PIIP-TSBL | Masque R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | journal | chèque | cfg |
InternViT-6B | Masque R-CNN | 1024 | 1x | 53,8 | 48.1 | 5919M | 29323G | journal | chèque | cfg |
PIIP-H6B | Masque R-CNN | 1024/512 | 1x | 55,8 | 49,0 | 6872M | 11080G | journal | chèque | cfg |
Colonne vertébrale | Détecteur | Pré-entraînement | Résolution | Schd | Carte de la boîte | Masque carte | Télécharger |
---|---|---|---|---|---|---|---|
PIIP-SBL | Masque R-CNN | Rég.août (384) | 1568/1120/672 | 1x | 48.3 | 42,6 | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48,8 | 42,9 | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43,0 | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | DeiT III | 1568/1120/672 | 1x | 50,0 | 44.4 | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51,0 | 44,7 | journal | chèque | cfg |
PIIP-SBL | Masque R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51,8 | 45.4 | journal | chèque | cfg |
PIIP-SBL | DINOSAURE | DeiT III (384) | 1792/1120/672 | 3x | 57,8 | - | journal | chèque | cfg |
PIIP-H6B | DINOSAURE | MAE (H) + StagiaireVL (6B) | 1024/768 | 1x | 60,0 | - | journal | chèque | cfg |
Colonne vertébrale | Détecteur | Résolution | Schd | mIoU | #Param | #FLOP | Télécharger |
---|---|---|---|---|---|---|---|
InternViT-6B | UperNet | 512 | 80k | 58.42 | 5910M | 6364G | journal | chèque | cfg |
PIIP-H6B | UperNet | 512/192 | 80k | 57,81 | 6745M | 1663G | journal | chèque | cfg |
PIIP-H6B | UperNet | 512/256 | 80k | 58.35 | 6745M | 2354G | journal | chèque | cfg |
PIIP-H6B | UperNet | 512/384 | 80k | 59.32 | 6746M | 4374G | journal | chèque | cfg |
PIIP-H6B | UperNet | 512/512 | 80k | 59,85 | 6747M | 7308G | journal | chèque | cfg |
Modèle | Résolution | #Param | #FLOP | Top-1 Acc | Configuration | Télécharger |
---|---|---|---|---|---|---|
PIIP-BST | 368/192/128 | 144M | 17,4G | 82.1 | configuration | journal | chèque |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85,2 | configuration | journal | chèque |
PIIP-SBL | 384/192/128 | 489M | 61,2G | 85,9 | configuration | journal | chèque |
code de détection
code de classement
code de segmentation
Si vous trouvez ce travail utile pour votre recherche, pensez à attribuer une étoile à ce dépôt et à citer notre article :
@article{piip, title={Réseaux de pyramides d'images à paramètres inversés}, author={Zhu, Xizhou et Yang, Xue et Wang, Zhaokai et Li, Hao et Dou, Wenhan et Ge, Junqi et Lu, Lewei et Qiao, Yu et Dai, Jifeng}, journal={arXiv preprint arXiv:2406.04330}, année={2024}}
Ce projet est publié sous licence MIT. Certaines parties de ce projet contiennent du code et des modèles provenant d'autres sources, qui sont soumis à leurs licences respectives.
Notre code est construit en référence au code des projets suivants : InternVL-MMDetSeg, ViT-Adapter, DeiT, MMMDetection, MMSegmentation et timm. Merci pour leur superbe travail !