[논문] [中文解读] [슬라이드] [동영상]
"매개변수 반전 이미지 피라미드 네트워크"(NeurIPS 2024 Spotlight) 논문의 공식 구현
핵심요약: 매개변수 크기가 다른 모델을 사용하여 이미지 피라미드의 다양한 해상도 수준을 처리하는 매개변수 반전 패러다임을 사용하는 매개변수 반전 이미지 피라미드 네트워크(PIIP)를 소개합니다. 이를 통해 성능을 향상시키면서 계산 비용을 절감합니다.
object detection
, instance segmentation
, semantic segmentation
및 image classification
작업을 지원합니다.
higher performance
과 lower computation cost
으로 단일 분기 방법을 능가합니다.
물체 감지에 대한 InternViT-6B
성능을 2.0%(55.8%) 향상
) 계산 비용을 62% 줄이면서.
이미지 피라미드는 이미지를 정확하게 이해하기 위한 다중 규모 기능을 얻기 위해 현대 컴퓨터 비전 작업에서 일반적으로 사용됩니다. 그러나 이미지 피라미드는 동일한 대규모 모델을 사용하여 여러 해상도의 이미지를 처리하므로 상당한 계산 비용이 필요합니다. 이 문제를 극복하기 위해 우리는 PIIP(Parameter-Inverted Image Pyramid Networks)로 알려진 새로운 네트워크 아키텍처를 제안합니다. 우리의 핵심 아이디어는 다양한 매개변수 크기를 가진 모델을 사용하여 이미지 피라미드의 다양한 해상도 수준을 처리함으로써 계산 효율성과 성능의 균형을 맞추는 것입니다. 특히 PIIP에 대한 입력은 더 작은 네트워크에서 더 높은 해상도의 이미지가 처리되는 다중 스케일 이미지 세트입니다. 우리는 또한 서로 다른 해상도의 기능이 서로 보완하고 서로 다른 공간 규모의 정보를 효과적으로 통합할 수 있도록 기능 상호 작용 메커니즘을 제안합니다. 광범위한 실험을 통해 PIIP는 기존 이미지 피라미드 방법 및 단일 분기 네트워크에 비해 객체 감지, 분할 및 이미지 분류와 같은 작업에서 탁월한 성능을 달성하는 동시에 계산 비용을 절감하는 것으로 나타났습니다. 특히, 대규모 비전 기반 모델 InternViT-6B에 우리 방법을 적용할 때 원래 계산의 40%-60%만으로 탐지 및 분할 성능이 1%-2% 향상되었습니다. 이러한 결과는 PIIP 접근 방식의 효율성을 검증하고 미래 비전 컴퓨팅 작업에 대한 새로운 기술 방향을 제공합니다.
설치, 사전 훈련된 모델, 훈련 및 평가에 대한 지침은 각 하위 폴더 아래의 Readme 파일을 참조하십시오.
mm검출
mm분할
분류
메모 :
백본의 매개변수 수와 FLOP를 보고합니다.
논문의 결과는 내부 코드베이스를 사용하여 얻은 것으로, 이 저장소와 약간 다른 성능을 보일 수 있습니다(
).
InternViT-6B를 사용한 실험은 논문에 나온 것과 달리 창 주의를 사용하지 않습니다.
등뼈 | 탐지기 | 해결 | Schd | 박스 맵 | 마스크 맵 | #파람 | #FLOP | 다운로드 |
---|---|---|---|---|---|---|---|---|
ViT-B | 마스크 R-CNN | 1024 | 1x | 43.7 | 39.7 | 90M | 463G | 로그 | ckpt | cfg |
PIIP-TSB | 마스크 R-CNN | 1120/896/448 | 1x | 43.6 | 38.7 | 146M | 243G | 로그 | ckpt | cfg |
PIIP-TSB | 마스크 R-CNN | 1568/896/448 | 1x | 45.0 | 40.3 | 147M | 287G | 로그 | ckpt | cfg |
PIIP-TSB | 마스크 R-CNN | 1568/1120/672 | 1x | 46.5 | 41.3 | 149M | 453G | 로그 | ckpt | cfg |
ViT-L | 마스크 R-CNN | 1024 | 1x | 46.7 | 42.5 | 308M | 1542G | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | 1120/672/448 | 1x | 46.5 | 40.8 | 493M | 727G | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | 1344/896/448 | 1x | 48.3 | 42.7 | 495M | 1002G | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | 1568/896/672 | 1x | 49.3 | 43.7 | 497M | 1464G | 로그 | ckpt | cfg |
PIIP-TSBL | 마스크 R-CNN | 1344/896/672/448 | 1x | 47.1 | 41.9 | 506M | 755G | 로그 | ckpt | cfg |
PIIP-TSBL | 마스크 R-CNN | 1568/1120/672/448 | 1x | 48.2 | 42.9 | 507M | 861G | 로그 | ckpt | cfg |
PIIP-TSBL | 마스크 R-CNN | 1792/1568/1120/448 | 1x | 49.4 | 44.1 | 512M | 1535G | 로그 | ckpt | cfg |
InternViT-6B | 마스크 R-CNN | 1024 | 1x | 53.8 | 48.1 | 5919M | 29323G | 로그 | ckpt | cfg |
PIIP-H6B | 마스크 R-CNN | 1024/512 | 1x | 55.8 | 49.0 | 6872M | 11080G | 로그 | ckpt | cfg |
등뼈 | 탐지기 | 사전 학습 | 해결 | Schd | 박스맵 | 마스크 맵 | 다운로드 |
---|---|---|---|---|---|---|---|
PIIP-SBL | 마스크 R-CNN | AugReg (384) | 1568/1120/672 | 1x | 48.3 | 42.6 | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | DeiT III(S) + Uni-Perceiver(BL) | 1568/1120/672 | 1x | 48.8 | 42.9 | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | DeiT III(S) + MAE(BL) | 1568/1120/672 | 1x | 49.1 | 43.0 | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | 데이트 III | 1568/1120/672 | 1x | 50.0 | 44.4 | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | DeiT III(S) + DINOv2(BL) | 1568/1120/672 | 1x | 51.0 | 44.7 | 로그 | ckpt | cfg |
PIIP-SBL | 마스크 R-CNN | DeiT III(S) + BEITv2(BL) | 1568/1120/672 | 1x | 51.8 | 45.4 | 로그 | ckpt | cfg |
PIIP-SBL | 디노 | 데이트 III (384) | 1792/1120/672 | 3배 | 57.8 | - | 로그 | ckpt | cfg |
PIIP-H6B | 디노 | MAE(H) + InternVL(6B) | 1024/768 | 1x | 60.0 | - | 로그 | ckpt | cfg |
등뼈 | 탐지기 | 해결 | Schd | 미우 | #파람 | #FLOP | 다운로드 |
---|---|---|---|---|---|---|---|
InternViT-6B | 어퍼넷 | 512 | 80,000 | 58.42 | 5910M | 6364G | 로그 | ckpt | cfg |
PIIP-H6B | 어퍼넷 | 512/192 | 80,000 | 57.81 | 6745M | 1663G | 로그 | ckpt | cfg |
PIIP-H6B | 어퍼넷 | 512/256 | 80,000 | 58.35 | 6745M | 2354G | 로그 | ckpt | cfg |
PIIP-H6B | 어퍼넷 | 512/384 | 80,000 | 59.32 | 6746M | 4374G | 로그 | ckpt | cfg |
PIIP-H6B | 어퍼넷 | 512/512 | 80,000 | 59.85 | 6747M | 7308G | 로그 | ckpt | cfg |
모델 | 해결 | #파람 | #FLOP | 상위-1 Acc | 구성 | 다운로드 |
---|---|---|---|---|---|---|
PIIP-TSB | 368/192/128 | 144M | 17.4G | 82.1 | 구성 | 로그 | ckpt |
PIIP-SBL | 320/160/96 | 489M | 39.0G | 85.2 | 구성 | 로그 | ckpt |
PIIP-SBL | 384/192/128 | 489M | 61.2G | 85.9 | 구성 | 로그 | ckpt |
감지 코드
분류 코드
분할 코드
이 작업이 귀하의 연구에 도움이 된다면 이 저장소에 별점을 주고 우리 논문을 인용하는 것을 고려해 보십시오:
@article{piip, title={매개변수 반전 이미지 피라미드 네트워크}, 작성자={Zhu, Xizhou 및 Yang, Xue 및 Wang, Zhaokai 및 Li, Hao 및 Dou, Wenhan 및 Ge, Junqi 및 Lu, Lewei 및 Qiao, Yu 및 Dai, Jifeng}, 저널={arXiv preprint arXiv:2406.04330}, 연도={2024}}
이 프로젝트는 MIT 라이선스로 배포됩니다. 이 프로젝트의 일부에는 해당 라이선스가 적용되는 다른 소스의 코드와 모델이 포함되어 있습니다.
우리 코드는 InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation 및 timm 프로젝트의 코드를 참조하여 구축되었습니다. 그들의 멋진 작업에 감사드립니다!