Ссылка: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA Код извлечения: vwkx
обновление: 2022/03/02 Обновление некоторых интерпретаций статей.
MHFormer: преобразователь мультигипотез для трехмерной оценки позы человека
Документ: https://arxiv.org/pdf/2111.12707.pdf.
Код: https://github.com/Vegetebird/MHFormer
Целью этой статьи является использование полностью сверточной формы для равномерного выражения и прогнозирования объектов и окружающей среды, тем самым достигая точной и эффективной панорамной сегментации. В частности, в этой статье предлагается генератор ядра свертки, который кодирует семантическую информацию каждого объекта и каждого типа среды в различные ядра свертки и свертывает ее с картами объектов высокого разрешения для непосредственного вывода результатов сегментации каждого переднего и заднего плана. Благодаря такому подходу могут быть сохранены индивидуальные различия и семантическая согласованность объектов и сред. Этот метод обеспечивает самые современные результаты по скорости и точности при работе с несколькими наборами данных панорамной сегментации. Ключевые слова: унифицированное выражение, динамическая свертка, паноптическая сегментация. Архив: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
устный доклад
FFB6D предлагает сетевую полнопоточную среду обучения представлению RGBD с двунаправленным слиянием и применяет ее к задаче оценки 6D-позы. Мы обнаружили, что существующие методы обучения представлению не могут эффективно использовать два взаимодополняющих источника данных: информацию о внешнем виде в RGB и геометрическую информацию в картах глубины (облака точек).
С этой целью мы разрабатываем двунаправленный модуль плотного слияния и применяем его к каждому уровню кодирования и декодирования CNN и сети облака точек. Этот полнопоточный механизм двунаправленного слияния позволяет двум сетям в полной мере использовать локальную и глобальную дополнительную информацию, извлеченную друг из друга, тем самым получая лучшее представление для последующих задач прогнозирования. Кроме того, что касается выбора выходного представления, мы разработали алгоритм выбора ключевой точки SIFT-FPS, основанный на текстуре и геометрической информации предмета, который упрощает поиск ключевых точек в сети и повышает точность позы. Наш метод позволяет добиться значительных улучшений по нескольким критериям. И эта магистральная сеть обучения представлению RGBD может применяться для решения большего количества визуальных задач с использованием RGBD в качестве входных данных путем каскадирования различных сетей прогнозирования. Ключевые слова: обучение представлению RGBD, 3D-зрение, оценка 6D-позы. PDF: https://arxiv.org/abs/2103.02242, код: https://github.com/ethnhe/FFB6D.
Наука и технологии всегда движутся вверх. Мы «оживили» одноканальную минималистскую архитектуру сверточной нейронной сети в стиле VGG со сверткой 3x3 до самого конца. Она достигла уровня SOTA по скорости и производительности и имеет точность более 80%. ImageNet.
Чтобы преодолеть трудности обучения архитектуры в стиле VGG, мы используем структурную перепараметризацию для построения тождественного отображения и ветви свертки 1x1 в модели во время обучения, а затем эквивалентно объединяем их в свертку 3x3 после обучения, таким образом, модель. содержит только свертку 3x3 во время вывода. Эта архитектура не имеет ветвящихся структур, поэтому она высокопараллельна и очень быстра. А поскольку основная часть имеет только один оператор «3x3-ReLU», она особенно подходит для индивидуального оборудования. Ключевые слова: структурная репараметризация, минималистская архитектура, эффективная модель https://arxiv.org/abs/2101.03697.
В этой статье предлагается новая операция свертки — динамическая свертка с учетом региона (DRConv: динамическая свертка с учетом региона), которая может распределять настроенные ядра свертки по различным областям плоскости на основе сходства объектов. По сравнению с традиционными свертками, этот метод свертки значительно расширяет возможности моделирования разнообразия семантической информации изображения. Стандартные сверточные слои могут увеличить количество ядер свертки для извлечения большего количества визуальных элементов, но это приведет к более высоким вычислительным затратам. DRConv использует обучаемый распределитель для перевода постепенно увеличивающихся ядер свертки в плоские измерения, что не только улучшает возможности представления свертки, но также поддерживает вычислительные затраты и инвариантность трансляции.
DRConv — это эффективный и элегантный метод обработки сложного и разнообразного распределения семантической информации. Он может заменить стандартные свертки в любой существующей сети благодаря своим характеристикам plug-and-play и обеспечивает значительное повышение производительности для облегченных сетей. В этой статье DRConv оценивается на различных моделях (серия MobileNet, ShuffleNetV2 и т. д.) и задачах (классификация, распознавание лиц, обнаружение и сегментация). В классификации ImageNet ShuffleNetV2-0,5× на основе DRConv на уровне вычислений 46M. Достижение производительности 67,1%. , что на 6,3% выше базового уровня. https://arxiv.org/abs/2003.12243
Мы предлагаем базовый модуль сверточной сети (DBB) для обогащения микроструктуры модели во время обучения без изменения ее макроструктуры, тем самым улучшая ее производительность. Этот модуль можно эквивалентным образом преобразовать в свертку посредством структурной повторной параметризации после обучения, не внося при этом никаких дополнительных затрат на вывод. картина
Мы суммировали шесть структур, которые могут быть преобразованы эквивалентно, включая непрерывную свертку 1x1-KxK, среднее объединение и т. д., и использовали эти шесть преобразований, чтобы получить репрезентативный экземпляр DBB, аналогичный Inception, который можно использовать в различных архитектурах. Оба достигли значительных результатов. улучшения производительности. Экспериментами мы подтвердили, что «нелинейность во время обучения» (но линейная во время вывода, например, BN) и «разнообразные связи» (например, 1x1+3x3 лучше, чем 3x3+3x3) являются ключом к эффективности DBB. . Ключевые слова: повторная параметризация структуры, отсутствие дополнительных затрат на рассуждения, безболезненное улучшение.
Большая часть прошлых работ была сосредоточена на производительности образцов малого класса за счет производительности образцов большого класса. В этой статье предлагается целевой детектор образцов малого класса без эффекта забывания, который может обеспечить лучшую производительность категорий образцов малого класса без потери производительности категорий образцов большого класса. В этой статье мы обнаруживаем, что предварительно обученные детекторы редко дают ложноположительные прогнозы для невидимых классов, а также обнаруживаем, что RPN не является идеальным компонентом, не зависящим от класса. Основываясь на этих двух выводах, мы разработали две простые и эффективные структуры: повторный детектор и RPN со сбалансированным смещением, которые могут обеспечить обнаружение цели выборки небольшого класса, не забывая об эффекте, всего лишь добавив небольшое количество параметров и время вывода. Ключевые слова: обучение на малых выборках, обнаружение целей.
В этом документе предлагается унифицированная структура для решения задач визуального распознавания, содержащих распределения данных с длинным хвостом. Сначала мы провели экспериментальный анализ существующих двухэтапных методов решения задач с длинным хвостом и выявили основные узкие места в производительности существующих методов. На основе экспериментального анализа мы предлагаем стратегию выравнивания распределения для систематического решения задач долгосрочного видения.
Структура разработана на основе двухэтапного метода. На первом этапе для обучения представлению признаков (обучение представлению) используется стратегия сбалансированной выборки. На втором этапе мы сначала разработали функцию выравнивания с учетом ввода, чтобы корректировать оценку входных данных. В то же время, чтобы априори представить распределение набора данных, мы разработали обобщенную схему повторного взвешивания для обработки различных сценариев визуальных задач, таких как классификация изображений, семантическая сегментация, обнаружение объектов и сегментация экземпляров. Мы проверили наш метод на четырех задачах и добились значительного улучшения производительности на каждой задаче. Ключевые слова: классификация изображений, семантическая сегментация, обнаружение объектов, сегментация экземпляров.
Впервые в этой статье исключена постобработка NMS (немаксимальное подавление) на полностью сверточном детекторе целей и достигнуто сквозное обучение. Мы проанализировали основные методы одноэтапного обнаружения объектов и обнаружили, что традиционная стратегия распределения меток «один ко многим» является ключом к этим методам, основанным на NMS, и поэтому предложили стратегию распределения меток «один к одному» с учетом прогнозов. Кроме того, чтобы повысить производительность однозначного присвоения меток, мы предлагаем модули, расширяющие возможности представления признаков, и вспомогательные функции потерь, которые ускоряют сходимость моделей. Наш метод обеспечивает производительность, сравнимую с обычными одноэтапными методами обнаружения объектов без NMS. В плотных сценах отзыв нашего метода превышает теоретический верхний предел методов обнаружения объектов, основанных на NMS. Ключевые слова: сквозное обнаружение, присвоение меток, полностью сверточная сеть https://arxiv.org/abs/2012.03544.
Мы предлагаем стратегию сопоставления образцов для обнаружения целей, основанную на теории оптимальной передачи, которая использует глобальную информацию для поиска оптимальных результатов сопоставления образцов. По сравнению с существующей технологией сопоставления образцов она имеет следующие преимущества: 1) Высокая точность обнаружения. Глобально оптимальные результаты сопоставления могут помочь детектору пройти обучение стабильным и эффективным образом и в конечном итоге достичь оптимальных характеристик обнаружения в наборе данных COCO. 2). Широкий спектр применимых сценариев. Существующие алгоритмы обнаружения целей должны перепроектировать стратегии или корректировать параметры при столкновении со сложными сценами, такими как плотные цели или серьезная окклюзия. Оптимальная модель передачи включает в себя процесс поиска оптимального решения в процессе глобального моделирования без каких-либо дополнительных настроек. -современная производительность в различных сценах с плотными объектами и серьезной окклюзией и имеет большой потенциал применения. Ключевые слова: обнаружение цели, оптимальная передача, стратегия сопоставления образцов.
Поскольку назначение меток одноступенчатого детектора является статическим и не учитывает глобальную информацию кадра объекта, мы предлагаем детектор объектов, основанный на выборке распределения массы объекта. В этой статье мы предлагаем модуль кодирования распределения качества QDE и модуль выборки распределения качества QDS. Извлекая региональные особенности целевого кадра и моделируя распределение качества кадра прогнозирования на основе модели гауссовой смеси, мы можем динамически выбирать. положительное значение рамки обнаружения. Отрицательное распределение выборки. Этот метод предполагает распределение меток только на этапе обучения и позволяет достичь лучших на данный момент результатов на нескольких наборах данных, таких как COCO. Ключевые слова: присвоение метки
Метод FSCE, предложенный в статье, направлен на решение проблемы обнаружения объектов небольшой выборки с точки зрения оптимизации представления признаков. В задачах обнаружения объектов с небольшой выборкой количество целевых выборок ограничено, и правильная классификация целевых выборок часто оказывает большое влияние на конечную производительность. FSCE использует идею контрастного обучения для кодирования соответствующих кадров-кандидатов и оптимизации их представления признаков, усиливая внутриклассовую компактность и межклассовое отталкивание признаков. Последний метод был эффективно улучшен на общих наборах данных COCO и Pascal VOC. . Ключевые слова: обнаружение целей небольшой выборки, ссылка на сравнительный учебный документ: https://arxiv.org/abs/2103.05950.
Существующий основной алгоритм NAS выполняет поиск модели посредством прогнозирования производительности подсети в проверочном наборе. Однако в рамках механизма совместного использования параметров существует большая разница между производительностью прогнозирования в проверочном наборе и истинной производительностью модели. Впервые мы сломали парадигму оценки модели на основе эффективности прогнозирования, оценили подсети с точки зрения скорости сходимости модели и предположили, что чем быстрее сходится модель, тем выше будет соответствующая ей эффективность прогнозирования.
Основываясь на структуре конвергенции моделей, мы обнаружили, что конвергенция моделей не имеет ничего общего с реальными метками изображений, и далее предложили новую парадигму NAS — RLNAS, которая использует случайные метки для обучения суперсети. RLNAS был проверен в нескольких наборах данных (NAS-Bench-201, ImageNet) и в нескольких пространствах поиска (DARTS, MobileNet). Результаты экспериментов показывают, что RLNAS может достичь производительности существующего NAS, используя только структуры, в которых осуществляется поиск случайных меток. Уровень СОТА. На первый взгляд RLNAS кажется нелогичным, но его неожиданно хорошие результаты дают более прочную основу для сообщества NAS и еще больше побуждают задуматься о природе NAS. Ключевые слова: поиск архитектуры нейронной сети, предположение о сходимости модели, случайная метка https://arxiv.org/abs/2101.11834.
Современные алгоритмы оценки позы человека используют регрессию тепловой карты для получения окончательных точек соединения. Эти методы обычно используют двумерное ядро Гаусса с фиксированным стандартным отклонением, охватывающее все ключевые точки скелета, для построения истинной тепловой карты, а также используют истинную тепловую карту для контроля модели. Поскольку реальные тепловые карты точек соприкосновения разных людей строятся с использованием одного и того же ядра Гаусса, этот метод не учитывает различия в масштабах разных людей, что приведет к неоднозначности меток и повлияет на эффект модели.
В этой статье предлагается регрессия тепловой карты, адаптивная к масштабу, которая может адаптивно генерировать стандартное отклонение, необходимое для построения меток на основе размера человеческого тела, тем самым делая модель более устойчивой к человеческим телам разных масштабов, и предлагает регрессию, адаптивную к весу; сбалансировать положительные и отрицательные выборки, продолжить изучение эффекта регрессии тепловой карты с адаптацией к масштабу. В этой статье наконец-то достигнуты самые высокие результаты в восходящей оценке позы человека. Ключевые слова: оценка позы человека, снизу вверх, адаптивная регрессия тепловой карты https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID предлагает новый метод дистилляции, основанный на задачах обнаружения. Извлекая общие экземпляры (GI) от учителей и студенческой сети соответственно, модуль GISM предлагает адаптивно выбирать экземпляры с большими различиями для фильтрации на основе функций, отношений и ответов. Этот метод впервые применяет реляционную дистилляцию знаний к системе обнаружения и объединяет цель дистилляции от независимого рассмотрения дистилляции положительных и отрицательных образцов до более важной дистилляции GI. Этот процесс не зависит от GT и достигает SOTA. Ключевые слова: обнаружение целей, дистилляция знаний https://arxiv.org/abs/2103.02340
Мы предлагаем новую функцию активации ACON (активировать или нет), которая может адаптивно обучаться активироваться или нет. ACON установил связь между ReLU и Swish: мы обнаружили, что, хотя эти две формы сильно различаются, Swish является гладкой формой ReLU. Основываясь на этом открытии, мы также предложили больше вариантов, таких как мета-acon, который позволил добиться двукратного бесплатного увеличения по сравнению с SENet. Мы проверяем эффективность обобщения этой краткой и эффективной функции активации на нескольких задачах. Ключевые слова: функция активации, нейронная сеть https://arxiv.org/abs/2009.04759.
В этой статье мы впервые проанализировали роль FPN в одноступенчатом детекторе RetinaNet. Путем экспериментов мы обнаружили, что идея «разделяй и властвуй» о назначении объектов разных масштабов разным уровням обнаружения в FPN имеет большое значение. влияние на результаты обнаружения. С точки зрения оптимизации эта идея разлагает проблему оптимизации обнаружения, упрощая обучение оптимизации и повышая точность обнаружения. Однако конструкция ФПС на основе многоуровневых функций усложняет сетевую структуру метода обнаружения, требует дополнительных вычислений и замедляет скорость обнаружения. Чтобы избежать вышеупомянутых проблем, в этой статье предлагается обнаруживать объекты всех масштабов на одном уровне. В то же время для решения проблемы сложной оптимизации при одноуровневом обнаружении признаков предлагается решение дырочного кодера и сбалансированного сопоставления. предложенный.
Точность обнаружения одноуровневого детектора YOLOF на основе функций, предложенного в этой статье, сравнима с точностью обнаружения RetinaNet на основе FPN при использовании только функций C5, а скорость обнаружения в 2,5 раза выше, чем у RetinaNet. Кроме того, по сравнению с DETR, который также использует только функции C5, YOLOF может достичь сопоставимой производительности при более быстрой сходимости (7x). Ключевые слова: одноэтапное обнаружение целей, одномасштабные функции, баланс между скоростью обнаружения и точностью https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
Целью данного исследования является улучшение производительности детектора без увеличения стоимости маркировки. В этой статье для обучения детектора выбрано небольшое количество ограничивающих рамок и большое количество точечных аннотаций. Точечная аннотация выбрана потому, что она богата информацией: она содержит информацию о местоположении и категории экземпляра, а стоимость аннотации невелика. В этом документе предлагается Point DETR путем расширения кодировщика точек до DETR. Общая структура такова: обучение Point DETR с помощью данных ограничивающего прямоугольника; кодирование аннотаций точек в запросы и прогнозирование псевдоблоков с помощью данных ограничивающего прямоугольника и псевдоблока. В наборе данных COCO, используя только 20% полностью аннотированных данных, наш детектор достигает 33,3AP, что превышает базовый уровень на 2,0AP. Ключевые слова: обнаружение целей, полуконтролируемое, слабое наблюдение.
Широкоугольные объективы любят за широкое поле зрения, но они страдают от дисторсии объектива и искажения перспективы, которые проявляются в изогнутых линиях фона, растяжении, сжатии и наклоне лиц и т. д. С этой целью в этой статье создается каскадная сеть устранения искажений, состоящая из сети линейной коррекции, сети коррекции лица и модуля перехода, так что фон представляет собой перспективную проекцию, а область лица представляет собой стереоскопическую проекцию, и плавно переходит между двумя областей, чтобы устранить различные искажения при сохранении поля зрения. Этот метод не требует параметров камеры, может достигать производительности в реальном времени и превосходит существующие методы как в качественных, так и в количественных оценках. Ключевые слова: коррекция искажений широкоугольного портрета, глубокая каскадная сеть.
Мы предлагаем новый метод обучения оптическому потоку без учителя UPFlow. Мы обнаружили, что текущий метод неконтролируемого оптического потока имеет две проблемы при обработке многомасштабных пирамид: проблема неоднозначности интерполяции в процессе повышения дискретизации потока и проблема отсутствия контроля многомасштабного потока. В связи с этим мы предлагаем модуль самоуправляемой повышающей дискретизации, который использует поток интерполяции и карту интерполяции для изменения механизма интерполяции повышающей дискретизации, тем самым достигая более точной повышающей дискретизации. Кроме того, мы предлагаем использовать конечный результат работы сети в качестве псевдометок для контроля обучения многомасштабного потока. Благодаря этим улучшениям наш метод позволяет получать более четкие и четкие результаты оптического потока. Мы проводим эксперименты на нескольких наборах эталонных данных оптического потока, включая Sintel, KITTI 2012 и KITTI 2015. Производительность UPFlow превосходит лучший на данный момент алгоритм неконтролируемого оптического потока примерно на 20%. Ключевые слова: оценка оптического потока, обучение без учителя https://arxiv.org/abs/2012.00212.
NBNet — это платформа, которая решает проблему снижения шума изображения. Мы подходим к этой проблеме с новой точки зрения: проецирование, адаптивное к изображению. В частности, мы изучаем набор подпространств в пространстве признаков, и шумоподавление изображения можно выполнить путем выбора подходящего подпространства сигнала и проецирования на это подпространство. По сравнению с предыдущей однотомной сетевой структурой, NBNet может естественным и более эффективным образом извлекать и использовать структурную информацию в изображениях посредством проекции, особенно в областях со слабой текстурой, чтобы помочь нам восстановить изображения. Благодаря такому простому методу NBNet достигла SOTA по двум критериям DND и SIDD с меньшими затратами вычислений. Ключевые слова: шумоподавление изображения, подпространство https://arxiv.org/abs/2012.15028.
Эта работа вводит «динамический диапазон», важный атрибут метрик, в глубокое обучение метрик, в результате чего возникает новая задача, называемая «динамическое обучение метрик». Мы обнаружили, что предыдущие измерения глубины фактически содержали только одну шкалу, например, различали только сходство или различие лиц и пешеходов. Независимо от того, насколько точны такие измерительные инструменты, они негибкие и имеют ограниченное применение в реальном использовании. Фактически, наши ежедневные измерительные инструменты обычно имеют динамический диапазон. Например, линейка всегда имеет несколько шкал (например, 1 мм, 1 см или даже 10 см) для измерения объектов разных масштабов. Мы считаем, что пришло время в области глубокого обучения метрике ввести динамический диапазон. Потому что сами визуальные концепции имеют разные размеры. «Животные» и «растения» соответствуют крупным масштабам, а «лось» — относительно мелким масштабам. В небольшом масштабе два лося могут выглядеть очень по-разному, но в другом большом масштабе одних и тех же двух лосей следует считать очень похожими.
С этой целью мы предлагаем эту динамическую задачу обучения метрике, которая требует изучения единого метрического пространства, которое может одновременно обеспечивать меры сходства для визуальных концепций разных семантических размеров. Кроме того, мы создаем три многомасштабных набора данных и предлагаем простой метод базовой линии. Мы считаем, что динамический диапазон станет незаменимым свойством глубокого обучения метрике и откроет новые перспективы и новые сценарии применения во всей области глубокого обучения метрике.
Сеть с 3D-графикой анатомии и интегрированной геометрией для сегментации массы поджелудочной железы, диагностики и количественного ведения пациентов
Deep Lesion Tracker: мониторинг поражений с помощью 4D-исследований продольной визуализации https://arxiv.org/abs/2012.04872
Автоматическая локализация и идентификация позвонков при КТ путем выпрямления позвоночника и анатомически-ограниченной оптимизации https://arxiv.org/abs/2012.07947
3D CNN с адаптивным временным разрешением https://arxiv.org/abs/2011.08652
KeepAugment: простое увеличение данных, сохраняющее информацию https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: непреднамеренное использование предварительно обученных GAN «черного ящика» https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: нейронные поля излучения для динамических сцен https://arxiv.org/abs/2011.13961
Грубо-тонкие сети для обнаружения временной активности в видео
Локализация экземпляра для предварительной подготовки по самостоятельному обнаружению https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Обоснованные визуальные ответы на вопросы со слабым контролем с использованием капсул
4D-паноптическая сегментация LiDAR https://arxiv.org/abs/2102.12472
Воздушный бой: обнаружение дронов по видео с дронов
Активное обучение с несколькими экземплярами для обнаружения объектов https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Пересмотр выравнивания представлений для многопредставленной кластеризации
Самоконтролируемое одновременное многоэтапное прогнозирование динамики дорог и карты затрат
Перевод изображения в изображение посредством распутывания иерархического стиля Синьян Ли, Шэнчуань Чжан, Цзе Ху, Люцзюань Цао, Сяопэн Хун, Сюдун Мао, Фейюэ Хуан, Юнцзянь Ву, Ронгронг Цзи https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: независимое от потока представление видео для быстрой интерполяции кадров https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: многомасштабное объединение локально-глобальных дескрипторов для распознавания мест Стивен Хауслер, Сурав Гарг, Мин Сюй, Майкл Милфорд, Тобиас Фишер https://arxiv.org/abs/2103.01486
Глубина по движению камеры и обнаружению объектов Брент А. Гриффин, Джейсон Дж. Корсо https://arxiv.org/abs/2103.01468
UP-DETR: предварительная подготовка без присмотра по обнаружению объектов с помощью трансформаторов https://arxiv.org/pdf/2011.09094.pdf
Многоэтапное прогрессивное восстановление изображения https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Слабо контролируемое обучение жесткому потоку 3D-сцен https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Изучение дополнительных преимуществ инвариантных и эквивариантных представлений для обучения за несколько кадров Мамшад Найим Ризве, Салман Хан, Фахад Шахбаз Хан, Мубарак Шах https://arxiv.org/abs/2103.01315
Изменение маркировки ImageNet: от одной метки к множественной, от глобальной к локализованной метке https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Переосмысление размеров канала для эффективного проектирования моделей https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Грубо-тонкие сети для обнаружения временной активности в видео Кумара Кахатапития, Майкл С. Рю https://arxiv.org/abs/2103.01302
Глубокий эмулятор вторичного движения 3D-персонажей Мианлунь Чжэн, И Чжоу, Дуйгу Джейлан, Джерней Барбич https://arxiv.org/abs/2103.01261
Справедливая классификация атрибутов посредством устранения смещения скрытого пространства https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
Объединение автоэкспозиции для удаления теней на одном изображении Лан Фу, Чанцин Чжоу, Цин Го, Феликс Цзюфей-Сюй, Хункай Ю, Вэй Фэн, Ян Лю, Сун Ван https://arxiv.org/abs/2103.01255
Меньше значит больше: CLIPBERT для обучения видео и языка с помощью разреженной выборки https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: масштабируемая и адаптивная реконструкция для видеокомпрессионного зондирования Чжэнцзюэ Ван, Хао Чжан, Цзыхэн Ченг, Бо Чен, Синь Юань https://arxiv.org/abs/2103.01786
AttentiveNAS: улучшение поиска нейронной архитектуры с помощью Attentive https://arxiv.org/pdf/2011.09011.pdf
Диффузионные вероятностные модели для создания трехмерных облаков точек Шитун Луо, Вэй Ху https://arxiv.org/abs/2103.01458
Это больше, чем кажется на первый взгляд: самоконтролируемое обнаружение и отслеживание нескольких объектов с помощью звука путем дистилляции мультимодальных знаний Франсиско Ривера Вальверде, Хуана Валерия Уртадо, Абхинав Валада https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
Кодирование в стиле: кодировщик StyleGAN для перевода изображений в изображения https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Иерархическое и частично наблюдаемое целенаправленное политическое обучение с учетом целей Реляционный граф Синь Е, Ечжоу Ян https://arxiv.org/abs/2103.01350
RepVGG: снова делаем сети ConvNet в стиле VGG великолепными https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Интерпретируемость трансформатора за пределами визуализации внимания https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
ХИЩНИК: Регистрация 3D-облаков точек с низким перекрытием https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Анализ знаний с несколькими разрешениями для обнаружения аномалий https://arxiv.org/abs/2011.11108
Очистка позитивно-немаркированных данных в дикой природе для обнаружения объектов
Фильтрация знаний без передачи данных для получения изображений сверхвысокого разрешения
Многократное регуляризованное динамическое сокращение сети
Предварительно обученный преобразователь обработки изображений https://arxiv.org/pdf/2012.00364.pdf
ReNAS: релятивистская оценка поиска нейронной архитектуры https://arxiv.org/pdf/1910.01523.pdf
AdderSR: на пути к энергоэффективному изображению сверхвысокого разрешения https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Изучение студенческих сетей в дикой природе https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: Чрезвычайно быстрый поиск нейронной архитектуры через призму песочных часов https://arxiv.org/pdf/2005.14446.pdf
Вероятностные вложения для кросс-модального поиска https://arxiv.org/abs/2101.05068
PLOP: обучение без забывания для непрерывной семантической сегментации https://arxiv.org/abs/2011.11390
Радужная память: постоянное обучение с запоминанием разнообразных образцов
Использование пространственных размеров скрытых данных в GAN для редактирования изображений в реальном времени
1.GhostNet: больше возможностей от дешевых операций (архитектура, превосходящая Mobilenet v3). Ссылка на документ: https://arxiv.org/pdf/1911.11907arxiv.org. Модель (потрясающая производительность на процессоре ARM): https://github com/iamhankai. /ghostnetgithub.com
Мы превзошли другие облегченные CNN SOTA, такие как MobileNetV3 и FBNet.
Addernet: Нам действительно нужны умения в глубоком обучении?
Частотная домена Компактные 3D-сверточные нейронные сети (сжатие 3DCNN) Бумажная ссылка: https://arxiv.org/pdf/1909.04977arxiv.org.
Полубегающий оценщик нейронных архитектур (предиктор точности нейронной сети NAS)
HIT-Detector: Иерархическая Троицкая Архитектура Поиск для обнаружения объектов (обнаружение NAS)
Автомобили: непрерывная эволюция для эффективного поиска нейронной архитектуры (NAS) эффективна, имеет многочисленные преимущества дифференциации и эволюции и может вывести исследование фронта Парето
О положительной беззаботной классификации в GAN (PU+GAN)
Обучение Multiview 3D -точка регистрации облака (3D Point Cloud) Бумажная ссылка: arxiv.org/abs/2001.05119
Мультимодальная доменная адаптация для мелкозернистого распознавания.
Модификаторы действий: обучение на наречиях в учебной видеозметике Ссылка: arxiv.org/abs/1912.06617
Polarmask: сегментация экземпляра с одним выстрелом с полярным представлением (моделирование сегментации экземпляра) Бумажная ссылка: arxiv.org/abs/1909.13226. com/xieenze/polarmask
Переосмысление оценки производительности в поиске нейронной архитектуры (NAS) Поскольку реальная трудоемкая часть поиска нейронной архитектуры в блоке-это часть оценки эффективности, эта статья находит оптимальные параметры для блочных NAS, что является более быстрой и актуальной.
Представление о распределении координат для оценок по позе человека Ссылка: arxiv.org/abs/1910.06278 github: https://github.com/ilovepose/darkpose Авторская команда Домашняя страница: https://ilovepose.github.io/ coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. генерировать объективный график сцены от предвзятого обучения
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184