[Kertas] [中文解读] [Slide] [Video]
Implementasi resmi makalah "Jaringan Piramida Gambar Terbalik Parameter" (Sorotan NeurIPS 2024)
TL;DR: Kami memperkenalkan Jaringan Piramida Gambar Terbalik Parameter (PIIP), yang menggunakan paradigma parameter terbalik yang menggunakan model dengan ukuran parameter berbeda untuk memproses tingkat resolusi berbeda dari piramida gambar, sehingga menghemat biaya komputasi sekaligus meningkatkan kinerja.
Mendukung tugas object detection
, instance segmentation
, semantic segmentation
, dan image classification
.
Melampaui metode cabang tunggal dengan higher performance
dan lower computation cost
.
Meningkatkan kinerja InternViT-6B
pada deteksi objek sebesar 2,0% (55,8%
) sekaligus mengurangi biaya komputasi sebesar 62%.
Piramida gambar biasanya digunakan dalam tugas visi komputer modern untuk mendapatkan fitur multiskala guna pemahaman gambar yang tepat. Namun, piramida gambar memproses beberapa resolusi gambar menggunakan model skala besar yang sama, sehingga memerlukan biaya komputasi yang signifikan. Untuk mengatasi masalah ini, kami mengusulkan arsitektur jaringan baru yang dikenal sebagai Parameter-Inverted Image Pyramid Networks (PIIP). Ide inti kami adalah menggunakan model dengan ukuran parameter berbeda untuk memproses tingkat resolusi piramida gambar yang berbeda, sehingga menyeimbangkan efisiensi dan kinerja komputasi. Secara khusus, masukan ke PIIP adalah sekumpulan gambar multi-skala, di mana gambar dengan resolusi lebih tinggi diproses oleh jaringan yang lebih kecil. Kami selanjutnya mengusulkan mekanisme interaksi fitur untuk memungkinkan fitur-fitur dengan resolusi berbeda saling melengkapi dan secara efektif mengintegrasikan informasi dari skala spasial yang berbeda. Eksperimen ekstensif menunjukkan bahwa PIIP mencapai kinerja unggul dalam tugas-tugas seperti deteksi objek, segmentasi, dan klasifikasi gambar, dibandingkan dengan metode piramida gambar tradisional dan jaringan cabang tunggal, sekaligus mengurangi biaya komputasi. Khususnya, ketika menerapkan metode kami pada model landasan visi skala besar InternViT-6B, kami meningkatkan kinerjanya sebesar 1%-2% pada deteksi dan segmentasi hanya dengan 40%-60% dari komputasi asli. Hasil ini memvalidasi efektivitas pendekatan PIIP dan memberikan arahan teknis baru untuk tugas komputasi visi masa depan.
Untuk instruksi instalasi, model terlatih, pelatihan dan evaluasi, silakan merujuk ke file readme di bawah setiap subfolder:
deteksi mm
mmsegmentasi
klasifikasi
Catatan :
Kami melaporkan jumlah parameter dan FLOP tulang punggung.
Hasil dalam makalah ini diperoleh dengan basis kode internal, yang mungkin menunjukkan kinerja sedikit berbeda dari repo ini (
).
Eksperimen yang melibatkan InternViT-6B tidak menggunakan perhatian jendela, berbeda dengan yang ada di makalah.
Tulang punggung | Detektor | Resolusi | Schd | Peta kotak | Peta topeng | #Param | #FLOP | Unduh |
---|---|---|---|---|---|---|---|---|
ViT-B | Topeng R-CNN | 1024 | 1x | 43.7 | 39.7 | 90M | 463G | catatan | ckpt | lih |
PIIP-TSB | Topeng R-CNN | 1120/896/448 | 1x | 43.6 | 38.7 | 146M | 243G | catatan | ckpt | lih |
PIIP-TSB | Topeng R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 147M | 287G | catatan | ckpt | lih |
PIIP-TSB | Topeng R-CNN | 1568/1120/672 | 1x | 46.5 | 41.3 | 149M | 453G | catatan | ckpt | lih |
ViT-L | Topeng R-CNN | 1024 | 1x | 46.7 | 42.5 | 308M | 1542G | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | 1120/672/448 | 1x | 46.5 | 40.8 | 493M | 727G | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495M | 1002G | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | 1568/896/672 | 1x | 49.3 | 43.7 | 497M | 1464G | catatan | ckpt | lih |
PIIP-TSBL | Topeng R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506M | 755G | catatan | ckpt | lih |
PIIP-TSBL | Topeng R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507M | 861G | catatan | ckpt | lih |
PIIP-TSBL | Topeng R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | catatan | ckpt | lih |
MagangViT-6B | Topeng R-CNN | 1024 | 1x | 53.8 | 48.1 | 5919M | 29323G | catatan | ckpt | lih |
PIIP-H6B | Topeng R-CNN | 1024/512 | 1x | 55.8 | 49.0 | 6872M | 11080G | catatan | ckpt | lih |
Tulang punggung | Detektor | Pralatihan | Resolusi | Schd | Peta kotak | Peta topeng | Unduh |
---|---|---|---|---|---|---|---|
PIIP-SBL | Topeng R-CNN | AgustusReg (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | DeiT III (S) + MAE (BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | Deit III | 1568/1120/672 | 1x | 50.0 | 44.4 | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | DeiT III (S) + DINOv2 (BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | catatan | ckpt | lih |
PIIP-SBL | Topeng R-CNN | DeiT III (S) + BEiTv2 (BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | catatan | ckpt | lih |
PIIP-SBL | DINO | Deit III (384) | 1792/1120/672 | 3x | 57.8 | - | catatan | ckpt | lih |
PIIP-H6B | DINO | MAE (H) + MagangVL (6B) | 1024/768 | 1x | 60.0 | - | catatan | ckpt | lih |
Tulang punggung | Detektor | Resolusi | Schd | mIoU | #Param | #FLOP | Unduh |
---|---|---|---|---|---|---|---|
MagangViT-6B | Jaringan Atas | 512 | 80k | 58.42 | 5910M | 6364G | catatan | ckpt | lih |
PIIP-H6B | Jaringan Atas | 512/192 | 80k | 57.81 | 6745M | 1663G | catatan | ckpt | lih |
PIIP-H6B | Jaringan Atas | 512/256 | 80k | 58.35 | 6745M | 2354G | catatan | ckpt | lih |
PIIP-H6B | Jaringan Atas | 512/384 | 80k | 59.32 | 6746M | 4374G | catatan | ckpt | lih |
PIIP-H6B | Jaringan Atas | 512/512 | 80k | 59,85 | 6747M | 7308G | catatan | ckpt | lih |
Model | Resolusi | #Param | #FLOP | Akun 1 Teratas | Konfigurasi | Unduh |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144M | 17.4G | 82.1 | konfigurasi | catatan | ckpt |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85.2 | konfigurasi | catatan | ckpt |
PIIP-SBL | 384/192/128 | 489M | 61.2G | 85.9 | konfigurasi | catatan | ckpt |
kode deteksi
kode klasifikasi
kode segmentasi
Jika Anda merasa karya ini bermanfaat untuk penelitian Anda, mohon pertimbangkan untuk memberi bintang pada repo ini dan mengutip makalah kami:
@article{piip, title={Parameter-Jaringan Piramida Gambar Terbalik}, author={Zhu, Xizhou dan Yang, Xue dan Wang, Zhaokai dan Li, Hao dan Dou, Wenhan dan Ge, Junqi dan Lu, Lewei dan Qiao, Yu dan Dai, Jifeng}, jurnal={arXiv pracetak arXiv:2406.04330}, tahun={2024}}
Proyek ini dirilis di bawah lisensi MIT. Bagian dari proyek ini berisi kode dan model dari sumber lain, yang tunduk pada lisensi masing-masing.
Kode kami dibuat dengan mengacu pada kode proyek berikut: InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation, dan timm. Terima kasih atas kerja luar biasa mereka!