[Artigo] [中文解读] [Slides] [Vídeo]
A implementação oficial do artigo "Redes de pirâmide de imagens invertidas com parâmetros" (NeurIPS 2024 Spotlight)
DR: Apresentamos as Redes de Pirâmide de Imagens com Parâmetros Invertidos (PIIP), empregando um paradigma de parâmetros invertidos que usa modelos com diferentes tamanhos de parâmetros para processar diferentes níveis de resolução da pirâmide de imagens, economizando assim custos de computação e melhorando o desempenho.
Suportar tarefas de object detection
, instance segmentation
, semantic segmentation
e image classification
.
Supera métodos de ramificação única com higher performance
e lower computation cost
.
Melhore o desempenho do InternViT-6B
na detecção de objetos em 2,0% (55,8%
) enquanto reduz o custo de computação em 62%.
Pirâmides de imagens são comumente usadas em tarefas modernas de visão computacional para obter recursos em várias escalas para uma compreensão precisa das imagens. No entanto, as pirâmides de imagens processam múltiplas resoluções de imagens usando o mesmo modelo em grande escala, o que requer um custo computacional significativo. Para superar esse problema, propomos uma nova arquitetura de rede conhecida como Redes de Pirâmide de Imagens Invertidas por Parâmetros (PIIP). Nossa ideia central é usar modelos com diferentes tamanhos de parâmetros para processar diferentes níveis de resolução da pirâmide de imagens, equilibrando assim eficiência e desempenho computacional. Especificamente, a entrada para o PIIP é um conjunto de imagens multiescala, onde imagens de maior resolução são processadas por redes menores. Propomos ainda um mecanismo de interação de recursos para permitir que recursos de diferentes resoluções se complementem e integrem efetivamente informações de diferentes escalas espaciais. Extensos experimentos demonstram que o PIIP alcança desempenho superior em tarefas como detecção de objetos, segmentação e classificação de imagens, em comparação com métodos tradicionais de pirâmide de imagens e redes de ramificação única, ao mesmo tempo que reduz o custo computacional. Notavelmente, ao aplicar nosso método em um modelo de base de visão em larga escala InternViT-6B, melhoramos seu desempenho em 1% a 2% na detecção e segmentação com apenas 40% a 60% da computação original. Estes resultados validam a eficácia da abordagem PIIP e fornecem uma nova direção técnica para futuras tarefas de computação de visão.
Para obter instruções sobre instalação, modelos pré-treinados, treinamento e avaliação, consulte os arquivos leia-me em cada subpasta:
detecção mm
segmentação mm
classificação
Observação :
Relatamos o número de parâmetros e FLOPs do backbone.
Os resultados do artigo foram obtidos com uma base de código interna, que pode apresentar desempenho ligeiramente diferente deste repositório (
).
Experimentos envolvendo InternViT-6B não utilizam atenção de janela, diferente dos do artigo.
Espinha dorsal | Detector | Resolução | Schd | Caixa MAP | Máscara mAP | #Param | #FLOPs | Download |
---|---|---|---|---|---|---|---|---|
ViT-B | Máscara R-CNN | 1024 | 1x | 43,7 | 39,7 | 90 milhões | 463G | registro | CPT | cfg |
PIIP-TSB | Máscara R-CNN | 1120/896/448 | 1x | 43,6 | 38,7 | 146 milhões | 243G | registro | CPT | cfg |
PIIP-TSB | Máscara R-CNN | 1568/896/448 | 1x | 45,0 | 40,3 | 147 milhões | 287G | registro | CPT | cfg |
PIIP-TSB | Máscara R-CNN | 1568/1120/672 | 1x | 46,5 | 41,3 | 149 milhões | 453G | registro | CPT | cfg |
ViT-L | Máscara R-CNN | 1024 | 1x | 46,7 | 42,5 | 308 milhões | 1542G | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | 1120/672/448 | 1x | 46,5 | 40,8 | 493 milhões | 727G | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | 1344/896/448 | 1x | 48,3 | 42,7 | 495 milhões | 1002G | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | 1568/896/672 | 1x | 49,3 | 43,7 | 497 milhões | 1464G | registro | CPT | cfg |
PIIP-TSBL | Máscara R-CNN | 1344/896/672/448 | 1x | 47,1 | 41,9 | 506 milhões | 755G | registro | CPT | cfg |
PIIP-TSBL | Máscara R-CNN | 1568/1120/672/448 | 1x | 48,2 | 42,9 | 507 milhões | 861G | registro | CPT | cfg |
PIIP-TSBL | Máscara R-CNN | 1792/1568/1120/448 | 1x | 49,4 | 44,1 | 512 milhões | 1535G | registro | CPT | cfg |
EstagiárioViT-6B | Máscara R-CNN | 1024 | 1x | 53,8 | 48,1 | 5919M | 29323G | registro | CPT | cfg |
PIIP-H6B | Máscara R-CNN | 1024/512 | 1x | 55,8 | 49,0 | 6872M | 11080G | registro | CPT | cfg |
Espinha dorsal | Detector | Pré-treino | Resolução | Schd | Caixa MAP | Máscara mAP | Download |
---|---|---|---|---|---|---|---|
PIIP-SBL | Máscara R-CNN | AugReg (384) | 1568/1120/672 | 1x | 48,3 | 42,6 | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + Uni-Perceptor (BL) | 1568/1120/672 | 1x | 48,8 | 42,9 | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49,1 | 43,0 | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III | 1568/1120/672 | 1x | 50,0 | 44,4 | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51,0 | 44,7 | registro | CPT | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51,8 | 45,4 | registro | CPT | cfg |
PIIP-SBL | DINOSSAURO | DeiT III (384) | 1792/1120/672 | 3x | 57,8 | - | registro | CPT | cfg |
PIIP-H6B | DINOSSAURO | MAE (H) + InternVL (6B) | 1024/768 | 1x | 60,0 | - | registro | CPT | cfg |
Espinha dorsal | Detector | Resolução | Schd | miU | #Param | #FLOPs | Download |
---|---|---|---|---|---|---|---|
EstagiárioViT-6B | SuperNet | 512 | 80 mil | 58,42 | 5910M | 6364G | registro | CPT | cfg |
PIIP-H6B | SuperNet | 512/192 | 80 mil | 57,81 | 6745M | 1663G | registro | CPT | cfg |
PIIP-H6B | SuperNet | 512/256 | 80 mil | 58,35 | 6745M | 2354G | registro | CPT | cfg |
PIIP-H6B | SuperNet | 512/384 | 80 mil | 59,32 | 6746M | 4374G | registro | CPT | cfg |
PIIP-H6B | SuperNet | 512/512 | 80 mil | 59,85 | 6747M | 7308G | registro | CPT | cfg |
Modelo | Resolução | #Param | #FLOPs | Contas principais | Configuração | Download |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144 milhões | 17,4G | 82,1 | configuração | registro | confirmado |
PIIP-SBL | 320/160/96 | 489 milhões | 39,0G | 85,2 | configuração | registro | confirmado |
PIIP-SBL | 384/192/128 | 489 milhões | 61,2G | 85,9 | configuração | registro | confirmado |
código de detecção
código de classificação
código de segmentação
Se você achar este trabalho útil para sua pesquisa, considere dar uma estrela a este repositório e citar nosso artigo:
@artigo{piip, título={Redes piramidais de imagens invertidas com parâmetros}, autor={Zhu, Xizhou e Yang, Xue e Wang, Zhaokai e Li, Hao e Dou, Wenhan e Ge, Junqi e Lu, Lewei e Qiao, Yu e Dai, Jifeng}, diário={pré-impressão arXiv arXiv:2406.04330}, ano={2024}}
Este projeto é lançado sob a licença do MIT. Partes deste projeto contêm códigos e modelos de outras fontes, que estão sujeitos às suas respectivas licenças.
Nosso código é construído com referência ao código dos seguintes projetos: InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation e timm. Obrigado pelo seu trabalho incrível!