[论文] [中文阅读] [幻灯片] [视频]
论文《Parameter-Inverted Image Pyramid Networks》的正式实现(NeurIPS 2024 Spotlight)
TL;DR:我们引入了参数倒置图像金字塔网络(PIIP),采用参数倒置范式,使用不同参数大小的模型来处理不同分辨率级别的图像金字塔,从而在提高性能的同时节省计算成本。
支持object detection
、 instance segmentation
、 semantic segmentation
和image classification
等任务。
超越单分支方法,具有higher performance
和lower computation cost
。
将InternViT-6B
的物体检测性能提高 2.0% (55.8%
)同时计算成本降低了 62%。
图像金字塔常用于现代计算机视觉任务中,以获得多尺度特征以精确理解图像。然而,图像金字塔使用相同的大规模模型处理多种分辨率的图像,这需要大量的计算成本。为了克服这个问题,我们提出了一种新颖的网络架构,称为参数倒置图像金字塔网络(PIIP)。我们的核心思想是使用不同参数大小的模型来处理不同分辨率级别的图像金字塔,从而平衡计算效率和性能。具体来说,PIIP 的输入是一组多尺度图像,其中更高分辨率的图像由更小的网络处理。我们进一步提出了一种特征交互机制,允许不同分辨率的特征相互补充,有效地整合来自不同空间尺度的信息。大量实验表明,与传统图像金字塔方法和单分支网络相比,PIIP 在目标检测、分割和图像分类等任务中实现了优越的性能,同时降低了计算成本。值得注意的是,当我们的方法应用于大规模视觉基础模型 InternViT-6B 时,我们在检测和分割方面的性能提高了 1%-2%,而计算量仅为原始计算的 40%-60%。这些结果验证了PIIP方法的有效性,并为未来视觉计算任务提供了新的技术方向。
有关安装、预训练模型、训练和评估的说明,请参阅每个子文件夹下的自述文件:
毫米检测
分段
分类
笔记:
我们报告骨干网的参数数量和 FLOPs。
论文中的结果是通过内部代码库获得的,其性能可能与此存储库略有不同(
)。
涉及 InternViT-6B 的实验没有使用窗口注意力,与论文中的不同。
骨干 | 探测器 | 解决 | 施德 | 盒式地图 | 掩码mAP | #参数 | #FLOPs | 下载 |
---|---|---|---|---|---|---|---|---|
维生素B | Mask R-CNN | 1024 | 1x | 43.7 | 39.7 | 90M | 463G | 日志| CKPT | cfg |
PIIP-TSB | Mask R-CNN | 1120/896/448 | 1x | 43.6 | 38.7 | 146M | 243G | 日志| CKPT | cfg |
PIIP-TSB | Mask R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 147M | 287G | 日志| CKPT | cfg |
PIIP-TSB | Mask R-CNN | 1568/1120/672 | 1x | 46.5 | 41.3 | 149M | 453G | 日志| CKPT | cfg |
维T-L | Mask R-CNN | 1024 | 1x | 46.7 | 42.5 | 308M | 1542G | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 1120/672/448 | 1x | 46.5 | 40.8 | 493M | 727G | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495M | 1002G | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 1568/896/672 | 1x | 49.3 | 43.7 | 497M | 1464G | 日志| CKPT | cfg |
PIIP-TSBL | Mask R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506M | 755G | 日志| CKPT | cfg |
PIIP-TSBL | Mask R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507M | 861G | 日志| CKPT | cfg |
PIIP-TSBL | Mask R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | 日志| CKPT | cfg |
实习生ViT-6B | Mask R-CNN | 1024 | 1x | 53.8 | 48.1 | 5919M | 29323G | 日志| CKPT | cfg |
PIIP-H6B | Mask R-CNN | 1024/512 | 1x | 55.8 | 49.0 | 6872M | 11080G | 日志| CKPT | cfg |
骨干 | 探测器 | 预训练 | 解决 | 施德 | 盒式地图 | 掩码mAP | 下载 |
---|---|---|---|---|---|---|---|
PIIP-SBL | Mask R-CNN | 八月注册 (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 德伊特III | 1568/1120/672 | 1x | 50.0 | 44.4 | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | 日志| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | 日志| CKPT | cfg |
PIIP-SBL | 恐龙 | 神 III (384) | 1792/1120/672 | 3x | 57.8 | - | 日志| CKPT | cfg |
PIIP-H6B | 恐龙 | MAE (H) + 实习生VL (6B) | 1024/768 | 1x | 60.0 | - | 日志| CKPT | cfg |
骨干 | 探测器 | 解决 | 施德 | 米卢 | #参数 | #FLOPs | 下载 |
---|---|---|---|---|---|---|---|
实习生ViT-6B | 上网 | 第512章 | 80k | 58.42 | 5910M | 6364G | 日志| CKPT | cfg |
PIIP-H6B | 上网 | 512/192 | 80k | 57.81 | 6745M | 1663G | 日志| CKPT | cfg |
PIIP-H6B | 上网 | 512/256 | 80k | 58.35 | 6745M | 2354G | 日志| CKPT | cfg |
PIIP-H6B | 上网 | 512/384 | 80k | 59.32 | 6746M | 4374G | 日志| CKPT | cfg |
PIIP-H6B | 上网 | 512/512 | 80k | 59.85 | 6747M | 7308G | 日志| CKPT | cfg |
模型 | 解决 | #参数 | #FLOPs | 前 1 名 Acc | 配置 | 下载 |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144M | 17.4G | 82.1 | 配置 | 日志|控制点 |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85.2 | 配置 | 日志|控制点 |
PIIP-SBL | 384/192/128 | 489M | 61.2G | 85.9 | 配置 | 日志|控制点 |
检测码
分类代码
分段码
如果您发现这项工作对您的研究有帮助,请考虑给这个 repo 一颗星并引用我们的论文:
@article{piip, title={参数倒置图像金字塔网络},author={朱、西周和杨、薛和王、赵凯和李、郝和窦、文瀚和葛、俊奇和陆、乐伟和乔、于和戴继峰},期刊={arXiv预印本arXiv:2406.04330},年份={2024}}
该项目是在 MIT 许可下发布的。该项目的部分内容包含来自其他来源的代码和模型,这些代码和模型受各自的许可证的约束。
我们的代码是参考以下项目的代码构建的:InternVL-MMDetSeg、ViT-Adapter、DeiT、MMDetection、MMSegmentation 和 timm。感谢他们出色的工作!