[論文] [中文閱讀] [幻燈片] [影片]
論文《Parameter-Inverted Image Pyramid Networks》的正式實作(NeurIPS 2024 Spotlight)
TL;DR:我們引入了參數倒置影像金字塔網路(PIIP),採用參數倒置範式,使用不同參數大小的模型來處理不同解析度等級的影像金字塔,從而在提高效能的同時節省運算成本。
支援object detection
、 instance segmentation
、 semantic segmentation
和image classification
等任務。
超越單分支方法,具有higher performance
和lower computation cost
。
將InternViT-6B
的物體偵測性能提高 2.0% (55.8%
)同時計算成本降低了 62%。
影像金字塔常用於現代電腦視覺任務中,以獲得多尺度特徵以精確理解影像。然而,影像金字塔使用相同的大規模模型處理多種解析度的影像,這需要大量的計算成本。為了克服這個問題,我們提出了一種新穎的網路架構,稱為參數倒置影像金字塔網路(PIIP)。我們的核心思想是使用不同參數大小的模型來處理不同解析度等級的影像金字塔,從而平衡計算效率和效能。具體來說,PIIP 的輸入是一組多尺度影像,其中更高解析度的影像由更小的網路處理。我們進一步提出了一種特徵交互機制,允許不同解析度的特徵相互補充,有效地整合來自不同空間尺度的資訊。大量實驗表明,與傳統影像金字塔方法和單分支網路相比,PIIP 在目標偵測、分割和影像分類等任務中實現了優越的效能,同時降低了運算成本。值得注意的是,當我們的方法應用於大規模視覺基礎模型InternViT-6B 時,我們在檢測和分割方面的表現提高了1%-2%,而計算量僅為原始計算的40%-60% 。這些結果驗證了PIIP方法的有效性,並為未來視覺運算任務提供了新的技術方向。
有關安裝、預訓練模型、訓練和評估的說明,請參閱每個子資料夾下的自述文件:
毫米偵測
分段
分類
筆記:
我們報告骨幹網路的參數數量和 FLOPs。
論文中的結果是透過內部程式碼庫獲得的,其性能可能與此存儲庫略有不同(
)。
涉及 InternViT-6B 的實驗並沒有使用視窗注意力,與論文中的不同。
骨幹 | 偵測器 | 解決 | 施德 | 盒式地圖 | 遮罩mAP | #參數 | #FLOPs | 下載 |
---|---|---|---|---|---|---|---|---|
維生素B | Mask R-CNN | 1024 | 1x | 43.7 | 39.7 | 90M | 463G | 日誌| CKPT | cfg |
PIIP-TSB | Mask R-CNN | 1120/896/448 | 1x | 43.6 | 38.7 | 146M | 243G | 日誌| CKPT | cfg |
PIIP-TSB | Mask R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 147M | 287G | 日誌| CKPT | cfg |
PIIP-TSB | Mask R-CNN | 1568/1120/672 | 1x | 46.5 | 41.3 | 149M | 453G | 日誌| CKPT | cfg |
維T-L | Mask R-CNN | 1024 | 1x | 46.7 | 42.5 | 308M | 1542G | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 1120/672/448 | 1x | 46.5 | 40.8 | 493M | 727G | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495M | 1002G | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 1568/896/672 | 1x | 49.3 | 43.7 | 497M | 1464G | 日誌| CKPT | cfg |
PIIP-TSBL | Mask R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506M | 755G | 日誌| CKPT | cfg |
PIIP-TSBL | Mask R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507M | 861G | 日誌| CKPT | cfg |
PIIP-TSBL | Mask R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | 日誌| CKPT | cfg |
實習生ViT-6B | Mask R-CNN | 1024 | 1x | 53.8 | 48.1 | 5919M | 29323G | 日誌| CKPT | cfg |
PIIP-H6B | Mask R-CNN | 1024/512 | 1x | 55.8 | 49.0 | 6872M | 11080G | 日誌| CKPT | cfg |
骨幹 | 偵測器 | 預訓練 | 解決 | 施德 | 盒式地圖 | 遮罩mAP | 下載 |
---|---|---|---|---|---|---|---|
PIIP-SBL | Mask R-CNN | 八月註冊 (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | 德伊特III | 1568/1120/672 | 1x | 50.0 | 44.4 | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | 日誌| CKPT | cfg |
PIIP-SBL | Mask R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | 日誌| CKPT | cfg |
PIIP-SBL | 恐龍 | 神 III (384) | 1792/1120/672 | 3x | 57.8 | - | 日誌| CKPT | cfg |
PIIP-H6B | 恐龍 | MAE (H) + 實習生VL (6B) | 1024/768 | 1x | 60.0 | - | 日誌| CKPT | cfg |
骨幹 | 偵測器 | 解決 | 施德 | 米盧 | #參數 | #FLOPs | 下載 |
---|---|---|---|---|---|---|---|
實習生ViT-6B | 上網 | 第512章 | 80k | 58.42 | 5910M | 6364G | 日誌| CKPT | cfg |
PIIP-H6B | 上網 | 512/192 | 80k | 57.81 | 6745M | 1663G | 日誌| CKPT | cfg |
PIIP-H6B | 上網 | 512/256 | 80k | 58.35 | 6745M | 2354G | 日誌| CKPT | cfg |
PIIP-H6B | 上網 | 512/384 | 80k | 59.32 | 6746M | 4374G | 日誌| CKPT | cfg |
PIIP-H6B | 上網 | 512/512 | 80k | 59.85 | 6747M | 7308G | 日誌| CKPT | cfg |
模型 | 解決 | #參數 | #FLOPs | 前 1 名 Acc | 配置 | 下載 |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144M | 17.4G | 82.1 | 配置 | 日誌|控制點 |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85.2 | 配置 | 日誌|控制點 |
PIIP-SBL | 384/192/128 | 489M | 61.2G | 85.9 | 配置 | 日誌|控制點 |
檢測碼
分類代碼
分段碼
如果您發現這項工作對您的研究有幫助,請考慮給這個 repo 一顆星並引用我們的論文:
@article{piip, title={參數倒置圖像金字塔網},author={朱、西周和楊、薛和王、趙凱和李、郝和竇、文瀚和葛、俊奇和陸、樂偉和喬、於和戴繼峰},期刊={arXiv預印本arXiv:2406.04330},年份={2024}}
該項目是在 MIT 許可下發布的。該專案的部分內容包含來自其他來源的程式碼和模型,這些程式碼和模型受各自的許可證的約束。
我們的程式碼是參考以下項目的程式碼建構的:InternVL-MMDetSeg、ViT-Adapter、DeiT、MMDetection、MMSegmentation 和 timm。感謝他們出色的工作!