[論文] [中文解读] [スライド] [ビデオ]
論文「Parameter-Inverted Image Pyramid Networks」の正式実装 (NeurIPS 2024 Spotlight)
TL;DR:パラメータ反転画像ピラミッド ネットワーク (PIIP) を導入します。これは、異なるパラメータ サイズを持つモデルを使用して画像ピラミッドのさまざまな解像度レベルを処理するパラメータ反転パラダイムを採用しており、それによってパフォーマンスを向上させながら計算コストを節約します。
object detection
、 instance segmentation
、 semantic segmentation
、 image classification
のタスクをサポートします。
単一分岐メソッドを上回り、 higher performance
、 lower computation cost
。
物体検出におけるInternViT-6B
のパフォーマンスが 2.0% (55.8%) 向上しました。
) 計算コストを 62% 削減します。
画像ピラミッドは、画像を正確に理解するためにマルチスケール特徴を取得するために、現代のコンピューター ビジョン タスクで一般的に使用されています。ただし、画像ピラミッドは同じ大規模モデルを使用して複数の解像度の画像を処理するため、多大な計算コストが必要になります。この問題を克服するために、パラメータ反転イメージ ピラミッド ネットワーク (PIIP) として知られる新しいネットワーク アーキテクチャを提案します。私たちの中心的なアイデアは、異なるパラメーター サイズを持つモデルを使用して、画像ピラミッドの異なる解像度レベルを処理し、それによって計算効率とパフォーマンスのバランスをとることです。具体的には、PIIP への入力はマルチスケール画像のセットであり、高解像度の画像は小規模なネットワークで処理されます。さらに、異なる解像度の特徴が相互に補完し、異なる空間スケールからの情報を効果的に統合できるようにする特徴相互作用メカニズムを提案します。広範な実験により、PIIP は、計算コストを削減しながら、従来の画像ピラミッド法や単一ブランチ ネットワークと比較して、物体検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成できることが実証されています。特に、大規模ビジョン基盤モデル InternViT-6B に私たちの手法を適用すると、元の計算のわずか 40% ~ 60% で検出とセグメンテーションのパフォーマンスが 1% ~ 2% 向上します。これらの結果は、PIIP アプローチの有効性を検証し、将来のビジョン コンピューティング タスクに新しい技術的方向性を提供します。
インストール、事前トレーニングされたモデル、トレーニング、評価の手順については、各サブフォルダーにある Readme ファイルを参照してください。
mm検出
mmセグメンテーション
分類
注記:
バックボーンのパラメータ数と FLOP を報告します。
この論文の結果は内部コードベースを使用して取得されたものであり、このリポジトリとはわずかに異なるパフォーマンスを示す可能性があります (
)。
InternViT-6B に関する実験では、論文のものとは異なり、ウィンドウ アテンションを使用しません。
バックボーン | 検出器 | 解決 | シュド | ボックスマップ | マスクマップ | #パラメータ | #FLOPs | ダウンロード |
---|---|---|---|---|---|---|---|---|
ViT-B | マスク R-CNN | 1024 | 1x | 43.7 | 39.7 | 90M | 463G | ログ |確認 | CFG |
PIIP-TSB | マスク R-CNN | 1120/896/448 | 1x | 43.6 | 38.7 | 1億4600万 | 243G | ログ |確認 | CFG |
PIIP-TSB | マスク R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 1億4700万 | 287G | ログ |確認 | CFG |
PIIP-TSB | マスク R-CNN | 1568/1120/672 | 1x | 46.5 | 41.3 | 1億4900万 | 453G | ログ |確認 | CFG |
ヴィットエル | マスク R-CNN | 1024 | 1x | 46.7 | 42.5 | 308M | 1542G | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | 1120/672/448 | 1x | 46.5 | 40.8 | 493M | 727G | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495M | 1002G | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | 1568/896/672 | 1x | 49.3 | 43.7 | 497M | 1464G | ログ |確認 | CFG |
PIIP-TSBL | マスク R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506M | 755G | ログ |確認 | CFG |
PIIP-TSBL | マスク R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507M | 861G | ログ |確認 | CFG |
PIIP-TSBL | マスク R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | ログ |確認 | CFG |
インターンヴィット-6B | マスク R-CNN | 1024 | 1x | 53.8 | 48.1 | 5919M | 29323G | ログ |確認 | CFG |
PIIP-H6B | マスク R-CNN | 1024/512 | 1x | 55.8 | 49.0 | 6872M | 11080G | ログ |確認 | CFG |
バックボーン | 検出器 | 事前トレーニング | 解決 | シュド | ボックスマップ | マスクマップ | ダウンロード |
---|---|---|---|---|---|---|---|
PIIP-SBL | マスク R-CNN | オーガスレグ (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | ディートⅢ(S)+ユニパーシーバー(BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | デイトIII(S)+MAE(BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | DeiTⅢ | 1568/1120/672 | 1x | 50.0 | 44.4 | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | ログ |確認 | CFG |
PIIP-SBL | マスク R-CNN | DeiTⅢ(S) + BEiTv2(BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | ログ |確認 | CFG |
PIIP-SBL | ディノ | ディートⅢ (384) | 1792/1120/672 | 3倍 | 57.8 | - | ログ |確認 | CFG |
PIIP-H6B | ディノ | MAE (H) + インターン VL (6B) | 1024/768 | 1x | 60.0 | - | ログ |確認 | CFG |
バックボーン | 検出器 | 解決 | シュド | ミオ | #パラメータ | #FLOPs | ダウンロード |
---|---|---|---|---|---|---|---|
インターンヴィット-6B | アッパーネット | 512 | 80k | 58.42 | 5910M | 6364G | ログ |確認 | CFG |
PIIP-H6B | アッパーネット | 512/192 | 80k | 57.81 | 6745M | 1663G | ログ |確認 | CFG |
PIIP-H6B | アッパーネット | 512/256 | 80k | 58.35 | 6745M | 2354G | ログ |確認 | CFG |
PIIP-H6B | アッパーネット | 512/384 | 80k | 59.32 | 6746M | 4374G | ログ |確認 | CFG |
PIIP-H6B | アッパーネット | 512/512 | 80k | 59.85 | 6747M | 7308G | ログ |確認 | CFG |
モデル | 解決 | #パラメータ | #FLOPs | トップ1のアクセス | 構成 | ダウンロード |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 1億4400万 | 17.4G | 82.1 | 構成 | ログ |確認 |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85.2 | 構成 | ログ |確認 |
PIIP-SBL | 384/192/128 | 489M | 61.2G | 85.9 | 構成 | ログ |確認 |
検出コード
分類コード
セグメンテーションコード
この研究があなたの研究に役立つと思われる場合は、このリポジトリに星を付け、論文を引用することを検討してください。
@article{piip, title={パラメータ反転画像ピラミッド ネットワーク}、author={Zhu、Xizhou と Yang、Xue と Wang、Zhaokai と Li、Hao と Dou、Wenhan と Ge、Junqi と Lu、Lewei と Qiao、Yuそして、Dai、Jifeng}、journal={arXiv preprint arXiv:2406.04330}、year={2024}}
このプロジェクトは MIT ライセンスに基づいてリリースされています。このプロジェクトの一部には他のソースからのコードとモデルが含まれており、これらにはそれぞれのライセンスが適用されます。
私たちのコードは、InternVL-MMDetSeg、ViT-Adapter、DeiT、MMDetection、MMSegmentation、timm プロジェクトのコードを参照して構築されています。彼らの素晴らしい仕事に感謝します!