[Бумага] [中文解读] [Слайды] [Видео]
Официальная реализация статьи «Пирамидные сети с инвертированными параметрами» (NeurIPS 2024 Spotlight)
TL;DR: Мы представляем сети пирамидальных изображений с инвертированными параметрами (PIIP), использующие парадигму с инвертированными параметрами, которая использует модели с разными размерами параметров для обработки разных уровней разрешения пирамиды изображений, тем самым экономя затраты на вычисления и одновременно повышая производительность.
Поддержка задач object detection
, instance segmentation
, semantic segmentation
и image classification
.
Превосходит одноветвевые методы с higher performance
и lower computation cost
.
Улучшить производительность InternViT-6B
по обнаружению объектов на 2,0% (55,8%
), одновременно снижая затраты на вычисления на 62%.
Пирамиды изображений обычно используются в современных задачах компьютерного зрения для получения многомасштабных функций для точного понимания изображений. Однако пирамиды изображений обрабатывают изображения с несколькими разрешениями, используя одну и ту же крупномасштабную модель, что требует значительных вычислительных затрат. Чтобы решить эту проблему, мы предлагаем новую сетевую архитектуру, известную как сети пирамид с инвертированными параметрами (PIIP). Наша основная идея — использовать модели с разными размерами параметров для обработки пирамиды изображений с разными уровнями разрешения, тем самым балансируя вычислительную эффективность и производительность. В частности, входными данными для PIIP является набор многомасштабных изображений, где изображения с более высоким разрешением обрабатываются меньшими сетями. Мы также предлагаем механизм взаимодействия функций, позволяющий функциям разного разрешения дополнять друг друга и эффективно интегрировать информацию из разных пространственных масштабов. Обширные эксперименты показывают, что PIIP обеспечивает превосходную производительность в таких задачах, как обнаружение объектов, сегментация и классификация изображений, по сравнению с традиционными методами пирамиды изображений и одноветвевыми сетями, одновременно снижая вычислительные затраты. Примечательно, что при применении нашего метода к крупномасштабной модели InternViT-6B мы улучшаем ее производительность на 1–2 % при обнаружении и сегментации, используя всего 40–60 % исходных вычислений. Эти результаты подтверждают эффективность подхода PIIP и обеспечивают новое техническое направление для будущих задач машинного зрения.
Инструкции по установке, предварительно обученным моделям, обучению и оценке см. в файлах readme в каждой подпапке:
обнаружение мм
ммсегментация
классификация
Примечание :
Сообщаем количество параметров и FLOP магистрали.
Результаты в статье были получены с использованием внутренней кодовой базы, которая может немного отличаться по производительности от этого репозитория (
).
В экспериментах с ИнтернВиТ-6Б не используется внимание к окну, в отличие от экспериментов, описанных в статье.
Магистраль | Детектор | Разрешение | Шд | Карта коробки | Карта маски | #Парам | #Флопы | Скачать |
---|---|---|---|---|---|---|---|---|
ВИТ-Б | Маска R-CNN | 1024 | 1x | 43,7 | 39,7 | 90М | 463Г | журнал | КПТ | cfg |
ПИИП-ТСБ | Маска R-CNN | 1120/896/448 | 1x | 43,6 | 38,7 | 146М | 243Г | журнал | КПТ | cfg |
ПИИП-ТСБ | Маска R-CNN | 1568/896/448 | 1x | 45,0 | 40,3 | 147М | 287Г | журнал | КПТ | cfg |
ПИИП-ТСБ | Маска R-CNN | 1568/1120/672 | 1x | 46,5 | 41,3 | 149М | 453Г | журнал | КПТ | cfg |
ВИТ-Л | Маска R-CNN | 1024 | 1x | 46,7 | 42,5 | 308М | 1542Г | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | 1120/672/448 | 1x | 46,5 | 40,8 | 493М | 727Г | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | 1344/896/448 | 1x | 48,3 | 42,7 | 495М | 1002Г | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | 1568/896/672 | 1x | 49,3 | 43,7 | 497М | 1464Г | журнал | КПТ | cfg |
ПИИП-ЦБЛ | Маска R-CNN | 1344/896/672/448 | 1x | 47,1 | 41,9 | 506М | 755Г | журнал | КПТ | cfg |
ПИИП-ЦБЛ | Маска R-CNN | 1568/1120/672/448 | 1x | 48,2 | 42,9 | 507М | 861Г | журнал | КПТ | cfg |
ПИИП-ЦБЛ | Маска R-CNN | 1792/1568/1120/448 | 1x | 49,4 | 44,1 | 512М | 1535Г | журнал | КПТ | cfg |
ИнтернВиТ-6Б | Маска R-CNN | 1024 | 1x | 53,8 | 48,1 | 5919М | 29323Г | журнал | КПТ | cfg |
ПИИП-H6B | Маска R-CNN | 1024/512 | 1x | 55,8 | 49,0 | 6872М | 11080Г | журнал | КПТ | cfg |
Магистраль | Детектор | Предварительная подготовка | Разрешение | Шд | Карта коробки | Карта маски | Скачать |
---|---|---|---|---|---|---|---|
ПИИП-СБЛ | Маска R-CNN | АвгустРег (384) | 1568/1120/672 | 1x | 48,3 | 42,6 | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | DeiT III (S) + Uni-Perceiver (BL) | 1568/1120/672 | 1x | 48,8 | 42,9 | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | ДеиТ III (S) + МАЭ (БЛ) | 1568/1120/672 | 1x | 49,1 | 43,0 | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | ДеиТ III | 1568/1120/672 | 1x | 50,0 | 44,4 | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | ДеиТ III (S) + DINOV2 (BL) | 1568/1120/672 | 1x | 51,0 | 44,7 | журнал | КПТ | cfg |
ПИИП-СБЛ | Маска R-CNN | ДеиТ III (S) + БЭиТв2 (БЛ) | 1568/1120/672 | 1x | 51,8 | 45,4 | журнал | КПТ | cfg |
ПИИП-СБЛ | ДИНО | ДеиТ III (384) | 1792/1120/672 | 3x | 57,8 | - | журнал | КПТ | cfg |
ПИИП-H6B | ДИНО | МАЭ (H) + СтажерВЛ (6Б) | 1024/768 | 1x | 60,0 | - | журнал | КПТ | cfg |
Магистраль | Детектор | Разрешение | Шд | МИЛОУ | #Парам | #Флопы | Скачать |
---|---|---|---|---|---|---|---|
ИнтернВиТ-6Б | УперНет | 512 | 80 тысяч | 58,42 | 5910М | 6364G | журнал | КПТ | cfg |
ПИИП-H6B | УперНет | 512/192 | 80 тысяч | 57,81 | 6745М | 1663Г | журнал | КПТ | cfg |
ПИИП-H6B | УперНет | 512/256 | 80 тысяч | 58,35 | 6745М | 2354Г | журнал | КПТ | cfg |
ПИИП-H6B | УперНет | 512/384 | 80 тысяч | 59,32 | 6746М | 4374Г | журнал | КПТ | cfg |
ПИИП-H6B | УперНет | 512/512 | 80 тысяч | 59,85 | 6747М | 7308G | журнал | КПТ | cfg |
Модель | Разрешение | #Парам | #Флопы | Топ-1 Акк | Конфигурация | Скачать |
---|---|---|---|---|---|---|
ПИИП-ТСБ | 368/192/128 | 144М | 17,4 г | 82,1 | конфигурация | журнал | КПТ |
ПИИП-СБЛ | 320/160/96 | 489М | 39,0 г | 85,2 | конфигурация | журнал | КПТ |
ПИИП-СБЛ | 384/192/128 | 489М | 61,2Г | 85,9 | конфигурация | журнал | КПТ |
код обнаружения
классификационный код
код сегментации
Если вы считаете эту работу полезной для своих исследований, поставьте этому репозиторию звездочку и процитируйте нашу статью:
@article{piip, title={Пирамидные сети с инвертированными параметрами}, автор={Чжу, Сичжоу и Ян, Сюэ и Ван, Чжаокай и Ли, Хао и Доу, Вэньхан и Гэ, Цзюньци и Лу, Льюэй и Цяо, Юй и Дай, Цзифэн}, журнал={препринт arXiv arXiv:2406.04330}, год={2024}}
Этот проект выпущен под лицензией MIT. Части этого проекта содержат код и модели из других источников, на которые распространяются соответствующие лицензии.
Наш код построен с привязкой к коду следующих проектов: InternVL-MMDetSeg, ViT-Adapter, DeiT, MMDetection, MMSegmentation и timm. Спасибо за их потрясающую работу!