[Artículo] [中文解读] [Diapositivas] [Vídeo]
La implementación oficial del artículo "Redes piramidales de imágenes con parámetros invertidos" (NeurIPS 2024 Spotlight)
TL;DR: Presentamos las redes de pirámide de imágenes con parámetros invertidos (PIIP), que emplean un paradigma de parámetros invertidos que utiliza modelos con diferentes tamaños de parámetros para procesar diferentes niveles de resolución de la pirámide de imágenes, ahorrando así costos de cálculo y mejorando el rendimiento.
Soportar tareas de object detection
, instance segmentation
, semantic segmentation
y image classification
.
Supera los métodos de una sola rama con higher performance
y lower computation cost
.
Mejorar el rendimiento de InternViT-6B
en la detección de objetos en un 2,0% (55,8%
) al tiempo que reduce el costo de cálculo en un 62%.
Las pirámides de imágenes se utilizan comúnmente en tareas modernas de visión por computadora para obtener características de múltiples escalas para una comprensión precisa de las imágenes. Sin embargo, las pirámides de imágenes procesan múltiples resoluciones de imágenes utilizando el mismo modelo a gran escala, lo que requiere un costo computacional significativo. Para superar este problema, proponemos una nueva arquitectura de red conocida como Redes Pirámides de Imagen Invertida de Parámetros (PIIP). Nuestra idea central es utilizar modelos con diferentes tamaños de parámetros para procesar diferentes niveles de resolución de la pirámide de imágenes, equilibrando así la eficiencia y el rendimiento computacional. Específicamente, la entrada a PIIP es un conjunto de imágenes de múltiples escalas, donde redes más pequeñas procesan imágenes de mayor resolución. Además, proponemos un mecanismo de interacción de características para permitir que características de diferentes resoluciones se complementen entre sí e integren efectivamente información de diferentes escalas espaciales. Amplios experimentos demuestran que PIIP logra un rendimiento superior en tareas como detección de objetos, segmentación y clasificación de imágenes, en comparación con los métodos tradicionales de pirámide de imágenes y redes de una sola rama, al tiempo que reduce el costo computacional. En particular, al aplicar nuestro método en un modelo básico de visión a gran escala InternViT-6B, mejoramos su rendimiento entre un 1% y un 2% en la detección y segmentación con solo un 40% y un 60% del cálculo original. Estos resultados validan la eficacia del enfoque PIIP y proporcionan una nueva dirección técnica para futuras tareas de informática de visión.
Para obtener instrucciones sobre instalación, modelos previamente entrenados, capacitación y evaluación, consulte los archivos Léame en cada subcarpeta:
detección mm
mmsegmentación
clasificación
Nota :
Informamos el número de parámetros y FLOP de la red troncal.
Los resultados del documento se obtuvieron con una base de código interna, que puede exhibir un rendimiento ligeramente diferente al de este repositorio (
).
Los experimentos que involucran InternViT-6B no utilizan la atención de ventana, a diferencia de los del artículo.
Columna vertebral | Detector | Resolución | Schd | mapa de caja | mapa de máscara | #param | #FLOP | Descargar |
---|---|---|---|---|---|---|---|---|
ViT-B | Máscara R-CNN | 1024 | 1x | 43,7 | 39,7 | 90M | 463G | iniciar sesión | registro | cfg |
PIIP-TSB | Máscara R-CNN | 1120/896/448 | 1x | 43,6 | 38,7 | 146M | 243G | iniciar sesión | registro | cfg |
PIIP-TSB | Máscara R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 147M | 287G | iniciar sesión | registro | cfg |
PIIP-TSB | Máscara R-CNN | 1568/1120/672 | 1x | 46,5 | 41.3 | 149M | 453G | iniciar sesión | registro | cfg |
ViT-L | Máscara R-CNN | 1024 | 1x | 46,7 | 42,5 | 308M | 1542G | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | 1120/672/448 | 1x | 46,5 | 40,8 | 493M | 727G | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | 1344/896/448 | 1x | 48.3 | 42,7 | 495M | 1002G | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | 1568/896/672 | 1x | 49.3 | 43,7 | 497M | 1464G | iniciar sesión | registro | cfg |
PIIP-TSBL | Máscara R-CNN | 1344/896/672/448 | 1x | 47.1 | 41,9 | 506M | 755G | iniciar sesión | registro | cfg |
PIIP-TSBL | Máscara R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42,9 | 507M | 861G | iniciar sesión | registro | cfg |
PIIP-TSBL | Máscara R-CNN | 1792/1568/1120/448 | 1x | 49,4 | 44.1 | 512M | 1535G | iniciar sesión | registro | cfg |
PasanteViT-6B | Máscara R-CNN | 1024 | 1x | 53,8 | 48.1 | 5919M | 29323G | iniciar sesión | registro | cfg |
PIIP-H6B | Máscara R-CNN | 1024/512 | 1x | 55,8 | 49.0 | 6872M | 11080G | iniciar sesión | registro | cfg |
Columna vertebral | Detector | Preentrenamiento | Resolución | Schd | mapa de caja | mapa de máscara | Descargar |
---|---|---|---|---|---|---|---|
PIIP-SBL | Máscara R-CNN | RegReg (384) | 1568/1120/672 | 1x | 48.3 | 42,6 | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48,8 | 42,9 | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | Deit III | 1568/1120/672 | 1x | 50.0 | 44.4 | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + DINOV2 (BL) | 1568/1120/672 | 1x | 51.0 | 44,7 | iniciar sesión | registro | cfg |
PIIP-SBL | Máscara R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51,8 | 45,4 | iniciar sesión | registro | cfg |
PIIP-SBL | dinosaurio | Deit III (384) | 1792/1120/672 | 3x | 57,8 | - | iniciar sesión | registro | cfg |
PIIP-H6B | dinosaurio | MAE (H) + InternoVL (6B) | 1024/768 | 1x | 60.0 | - | iniciar sesión | registro | cfg |
Columna vertebral | Detector | Resolución | Schd | miou | #param | #FLOP | Descargar |
---|---|---|---|---|---|---|---|
PasanteViT-6B | UperNet | 512 | 80k | 58,42 | 5910M | 6364G | iniciar sesión | registro | cfg |
PIIP-H6B | UperNet | 512/192 | 80k | 57,81 | 6745M | 1663G | iniciar sesión | registro | cfg |
PIIP-H6B | UperNet | 512/256 | 80k | 58,35 | 6745M | 2354G | iniciar sesión | registro | cfg |
PIIP-H6B | UperNet | 512/384 | 80k | 59,32 | 6746M | 4374G | iniciar sesión | registro | cfg |
PIIP-H6B | UperNet | 512/512 | 80k | 59,85 | 6747M | 7308G | iniciar sesión | registro | cfg |
Modelo | Resolución | #param | #FLOP | Cuenta Top-1 | Configuración | Descargar |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144M | 17,4G | 82.1 | configuración | iniciar sesión | ckpt |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85.2 | configuración | iniciar sesión | ckpt |
PIIP-SBL | 384/192/128 | 489M | 61,2G | 85,9 | configuración | iniciar sesión | ckpt |
código de detección
código de clasificación
código de segmentación
Si este trabajo le resulta útil para su investigación, considere darle una estrella a este repositorio y citar nuestro artículo:
@article{piip, title={Redes piramidales de imágenes con parámetros invertidos}, autor={Zhu, Xizhou y Yang, Xue y Wang, Zhaokai y Li, Hao y Dou, Wenhan y Ge, Junqi y Lu, Lewei y Qiao, Yu y Dai, Jifeng}, diario={arXiv preprint arXiv:2406.04330}, año={2024}}
Este proyecto está publicado bajo la licencia MIT. Partes de este proyecto contienen código y modelos de otras fuentes, que están sujetos a sus respectivas licencias.
Nuestro código está construido con referencia al código de los siguientes proyectos: InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation y timm. ¡Gracias por su increíble trabajo!