Link: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA Código de extração: vwkx
atualização: 02/03/2022 Atualize algumas interpretações do artigo
MHFormer: Transformador Multi-Hipótese para Estimativa de Pose Humana 3D
Artigo: https://arxiv.org/pdf/2111.12707.pdf
Código: https://github.com/Vegetebird/MHFormer
Este artigo visa usar uma forma totalmente convolucional para expressar e prever uniformemente objetos e ambientes circundantes, alcançando assim uma segmentação panorâmica precisa e eficiente. Especificamente, este artigo propõe um gerador de kernel de convolução que codifica as informações semânticas de cada objeto e cada tipo de ambiente em diferentes kernels de convolução e as envolve com mapas de recursos de alta resolução para gerar diretamente os resultados da segmentação de cada primeiro e segundo plano. Através desta abordagem, as diferenças individuais e a consistência semântica de objetos e ambientes podem ser preservadas respectivamente. Este método alcança resultados de última geração em velocidade e precisão em vários conjuntos de dados de segmentação panorâmica. Palavras-chave: expressão unificada, convolução dinâmica, segmentação panóptica arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
artigo oral
FFB6D propõe uma estrutura de aprendizado de representação RGBD de fusão bidirecional de fluxo total de rede e a aplica ao problema de estimativa de pose 6D. Descobrimos que os métodos de aprendizagem de representação existentes não conseguem fazer bom uso das duas fontes de dados complementares de informações de aparência em RGB e informações geométricas em mapas de profundidade (nuvens de pontos).
Para tanto, projetamos um módulo de fusão densa bidirecional e o aplicamos a cada camada de codificação e decodificação da CNN e da rede de nuvem de pontos. Este mecanismo de fusão bidirecional de fluxo total permite que as duas redes façam pleno uso das informações complementares locais e globais extraídas uma da outra, obtendo assim melhores representações para tarefas de previsão downstream. Além disso, em termos de seleção de representação de saída, projetamos um algoritmo de seleção de pontos-chave SIFT-FPS baseado na textura e nas informações geométricas do item, o que simplifica a dificuldade da rede em localizar pontos-chave e melhora a precisão da pose. Nosso método alcança melhorias significativas em vários benchmarks. E esta rede de backbone de aprendizagem de representação RGBD pode ser aplicada a tarefas mais visuais com RGBD como entrada, conectando diferentes redes de predição em cascata. Palavras-chave: aprendizagem de representação RGBD, visão 3D, estimativa de pose 6D PDF: https://arxiv.org/abs/2103.02242 código: https://github.com/ethnhe/FFB6D
A ciência e a tecnologia estão sempre em espiral ascendente. "Revivemos" a arquitetura de rede neural convolucional minimalista de canal único estilo VGG, com uma convolução 3x3 até o fim. Ela atingiu o nível SOTA em velocidade e desempenho e tem uma taxa de precisão de mais de 80% em. ImagemNet.
Para superar a dificuldade de treinar a arquitetura estilo VGG, usamos a parametrização estrutural para construir o mapeamento de identidade e a ramificação de convolução 1x1 no modelo durante o treinamento e, em seguida, mesclamos-os de forma equivalente em 3x3 após o treinamento, portanto, o modelo. contém apenas convolução 3x3 durante a inferência. Esta arquitetura não possui estruturas ramificadas, por isso é altamente paralela e muito rápida. E como a parte principal possui apenas um operador, "3x3-ReLU", ela é particularmente adequada para hardware customizado. Palavras-chave: reparametrização estrutural, arquitetura minimalista, modelo eficiente https://arxiv.org/abs/2101.03697
Este artigo propõe uma nova operação de convolução - Dynamic Region-Aware Convolution (DRConv: Dynamic Region-Aware Convolution), que pode alocar kernels de convolução personalizados para diferentes áreas planas com base na similaridade de recursos. Comparado com as convoluções tradicionais, este método de convolução aumenta muito a capacidade de modelagem da diversidade de informações semânticas da imagem. Camadas convolucionais padrão podem aumentar o número de núcleos de convolução para extrair mais elementos visuais, mas resultarão em custos computacionais mais elevados. DRConv usa um alocador que pode ser aprendido para transferir núcleos de convolução gradualmente crescentes para dimensões planas, o que não apenas melhora a capacidade de representação da convolução, mas também mantém o custo computacional e a invariância de tradução.
DRConv é um método eficaz e elegante para lidar com a distribuição complexa e variada de informações semânticas. Ele pode substituir convoluções padrão em qualquer rede existente com suas características plug-and-play e possui melhorias significativas de desempenho para redes leves. Este artigo avalia DRConv em vários modelos (série MobileNet, ShuffleNetV2, etc.) e tarefas (classificação, reconhecimento facial, detecção e segmentação. Na classificação ImageNet, ShuffleNetV2-0,5× baseado em DRConv no nível de cálculos de 46M, alcançando desempenho de 67,1%). , uma melhoria de 6,3% em relação à linha de base. https://arxiv.org/abs/2003.12243
Propomos um módulo básico de rede convolucional (DBB) para enriquecer a microestrutura do modelo durante o treinamento sem alterar sua macroestrutura, melhorando assim seu desempenho. Este módulo pode ser convertido de forma equivalente em uma convolução através de parametrização estrutural após o treinamento, não introduzindo assim qualquer sobrecarga de inferência adicional. foto
Resumimos seis estruturas que podem ser transformadas de forma equivalente, incluindo convolução contínua 1x1-KxK, pooling médio, etc., e usamos essas seis transformações para fornecer uma instância DBB representativa semelhante ao Inception, que pode ser usada em várias arquiteturas. melhorias de desempenho. Confirmamos através de experimentos que "não linearidade durante o treinamento" (mas linear durante a inferência, como BN) e "ligações diversas" (por exemplo, 1x1+3x3 é melhor que 3x3+3x3) são as chaves para a eficácia do DBB . Palavras-chave: Reparametrização de estrutura, sem sobrecarga de raciocínio, melhoria indolor
A maior parte dos trabalhos anteriores focou no desempenho de amostras de classes pequenas em detrimento do desempenho de amostras de classes grandes. Este artigo propõe um detector de alvo de amostra de classe pequena sem esquecer o efeito, que pode alcançar melhor desempenho de categoria de amostra de classe pequena sem perder o desempenho de categorias de amostra de classe grande. Neste artigo, descobrimos que detectores pré-treinados raramente produzem previsões falsas positivas em classes não vistas, e também descobrimos que RPN não é um componente ideal independente de classe. Com base nessas duas descobertas, projetamos duas estruturas simples e eficazes, Rededetector e RPN Bias-Balanced, que podem alcançar a detecção de alvos de amostras de classe pequena sem esquecer o efeito, adicionando apenas um pequeno número de parâmetros e tempo de inferência. Palavras-chave: aprendizagem em pequenas amostras, detecção de alvos
Este artigo propõe uma estrutura unificada para lidar com tarefas de reconhecimento visual contendo distribuições de dados de cauda longa. Primeiro, conduzimos uma análise experimental dos métodos existentes em dois estágios para lidar com problemas de cauda longa e descobrimos os principais gargalos de desempenho dos métodos existentes. Com base em análises experimentais, propomos uma estratégia de alinhamento de distribuição para resolver sistematicamente tarefas de visão de cauda longa.
A estrutura é projetada com base em um método de dois estágios. No primeiro estágio, uma estratégia de amostragem balanceada por instância é usada para aprendizagem de representação de recursos (aprendizagem de representação). No segundo estágio, primeiro projetamos uma função de alinhamento com reconhecimento de entrada para corrigir a pontuação dos dados de entrada. Ao mesmo tempo, a fim de introduzir a priori a distribuição do conjunto de dados, projetamos um esquema de reponderação generalizado para lidar com vários cenários de tarefas visuais, como classificação de imagens, segmentação semântica, detecção de objetos e segmentação de instâncias. Verificamos nosso método em quatro tarefas e obtivemos melhorias significativas de desempenho em cada tarefa. Palavras-chave: classificação de imagens, segmentação semântica, detecção de objetos, segmentação de instâncias
Pela primeira vez, este artigo remove o pós-processamento NMS (supressão não máxima) no detector de alvo totalmente convolucional e atinge o treinamento ponta a ponta. Analisamos os principais métodos de detecção de objetos de um estágio e descobrimos que a estratégia tradicional de alocação de rótulos um para muitos é a chave para esses métodos que dependem de NMS e, portanto, propusemos uma estratégia de alocação de rótulos um para um com reconhecimento de previsão. Além disso, a fim de melhorar o desempenho da atribuição de rótulos um para um, propomos módulos que aprimoram as capacidades de representação de recursos e funções auxiliares de perda que aceleram a convergência do modelo. Nosso método atinge desempenho comparável aos métodos convencionais de detecção de objetos de um estágio sem NMS. Em cenas densas, a recuperação do nosso método excede o limite superior teórico dos métodos de detecção de objetos que dependem de NMS. Palavras-chave: detecção ponta a ponta, atribuição de rótulos, rede totalmente convolucional https://arxiv.org/abs/2012.03544
Propomos uma estratégia de correspondência de amostras de detecção de alvo baseada na teoria de transmissão ideal, que usa informações globais para encontrar resultados ideais de correspondência de amostras. Em comparação com a tecnologia de correspondência de amostras existente, ela tem as seguintes vantagens: 1). Os resultados de correspondência globalmente ideais podem ajudar o detector a ser treinado de maneira estável e eficiente e, em última análise, alcançar o desempenho de detecção ideal no conjunto de dados COCO. 2). Ampla gama de cenários aplicáveis. Os algoritmos de detecção de alvos existentes precisam redesenhar estratégias ou ajustar parâmetros ao encontrar cenas complexas, como alvos densos ou oclusão severa. O modelo de transmissão ideal inclui o processo de encontrar a solução ideal no processo de modelagem global, sem quaisquer ajustes adicionais, ele pode atingir o estado. desempenho de última geração em diversas cenas com alvos densos e oclusão severa, e tem grande potencial de aplicação. Palavras-chave: detecção de alvos, transmissão ótima, estratégia de correspondência de amostras
Como a atribuição do rótulo do detector de um estágio é estática e não considera a informação global do quadro do objeto, propomos um detector de objetos baseado na amostragem da distribuição de massa do objeto. Neste artigo, propomos o módulo de codificação de distribuição de qualidade QDE e o módulo de amostragem de distribuição de qualidade QDS. Ao extrair as características regionais do quadro alvo e modelar a distribuição de qualidade do quadro de predição com base no modelo de mistura gaussiana, podemos selecionar dinamicamente o. valor positivo do quadro de detecção. Este método envolve apenas a atribuição de rótulos na fase de treinamento e pode alcançar os melhores resultados atuais em vários conjuntos de dados, como COCO. Palavras-chave: atribuição de rótulo
O método FSCE proposto no artigo visa resolver o problema de detecção de objetos de pequenas amostras na perspectiva de otimizar a representação de recursos. Em tarefas de detecção de objetos de amostras pequenas, o número de amostras alvo é limitado, e a classificação correta das amostras alvo geralmente tem um grande impacto no desempenho final. FSCE usa a ideia de aprendizagem contrastiva para codificar quadros candidatos relevantes e otimizar sua representação de recursos, fortalecendo a compactação intraclasse e a repulsão interclasse de recursos. O método final foi efetivamente aprimorado nos conjuntos de dados COCO e Pascal VOC comuns. . Palavras-chave: detecção de alvos em pequenas amostras, link de artigo de aprendizagem comparativa: https://arxiv.org/abs/2103.05950
O algoritmo NAS convencional existente realiza a pesquisa de modelo através do desempenho de previsão da sub-rede no conjunto de verificação. No entanto, no mecanismo de compartilhamento de parâmetros, há uma grande diferença entre o desempenho de previsão no conjunto de verificação e o verdadeiro desempenho do modelo. Pela primeira vez, quebramos o paradigma de avaliação de modelos com base no desempenho de predição, avaliamos sub-redes do ponto de vista da velocidade de convergência do modelo e levantamos a hipótese de que quanto mais rápido o modelo convergir, maior será seu desempenho de predição correspondente.
Com base na estrutura de convergência do modelo, descobrimos que a convergência do modelo nada tem a ver com os rótulos reais das imagens, e propusemos ainda um novo paradigma NAS-RLNAS que usa rótulos aleatórios para treinamento de superredes. O RLNAS foi verificado em vários conjuntos de dados (NAS-Bench-201, ImageNet) e em vários espaços de pesquisa (DARTS, MobileNet-like). Os resultados experimentais mostram que o RLNAS pode atingir o desempenho do NAS existente usando apenas estruturas pesquisadas por rótulos aleatórios. Nível SOTA. O RLNAS parece contra-intuitivo à primeira vista, mas os seus resultados inesperadamente bons fornecem uma base mais sólida para a comunidade NAS e inspiram ainda mais o pensamento sobre a natureza do NAS. Palavras-chave: pesquisa de arquitetura de rede neural, suposição de convergência de modelo, rótulo aleatório https://arxiv.org/abs/2101.11834
Os algoritmos atuais de estimativa de pose humana usam regressão de mapa de calor para obter os pontos finais da junta. Esses métodos normalmente usam um kernel gaussiano 2D de desvio padrão fixo cobrindo todos os pontos-chave do esqueleto para construir um mapa de calor verdadeiro e usam o mapa de calor verdadeiro para supervisionar o modelo. Como os mapas de calor reais dos pontos conjuntos de diferentes pessoas são construídos usando o mesmo kernel gaussiano, este método não considera as diferenças de escala de diferentes pessoas, o que causará ambigüidade no rótulo e afetará o efeito do modelo.
Este artigo propõe uma regressão de mapa de calor adaptativo à escala que pode gerar de forma adaptativa o desvio padrão necessário para construir rótulos com base no tamanho do corpo humano, tornando o modelo mais robusto para corpos humanos de diferentes escalas e propõe uma regressão adaptativa ao peso para; equilibrar amostras positivas e negativas, explorar ainda mais o efeito de regressão do mapa de calor adaptável à escala. Este artigo finalmente alcança o desempenho mais avançado na estimativa de pose humana de baixo para cima. Palavras-chave: estimativa de pose humana, regressão de mapa de calor adaptativo de baixo para cima https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
O GID propõe um novo método de destilação baseado em tarefas de detecção. Ao extrair instâncias gerais (GI) de professores e studnet respectivamente, o módulo GISM é proposto para selecionar de forma adaptativa instâncias com grandes diferenças para destilação baseada em características, baseada em relações e baseada em respostas. Este método aplica a destilação de conhecimento relacional à estrutura de detecção pela primeira vez e unifica o alvo de destilação da consideração independente da destilação de amostra positiva e negativa para uma destilação GI mais essencial. O processo não depende de GT e atinge SOTA. Palavras-chave: detecção de alvos, destilação de conhecimento https://arxiv.org/abs/2103.02340
Propomos uma nova função de ativação ACON (ativar ou não), que pode aprender adaptativamente a ativar ou não. ACON estabeleceu a conexão entre ReLU e Swish: Descobrimos que embora as duas formas sejam muito diferentes, Swish é uma forma suave de ReLU. Com base nesta descoberta, propusemos ainda mais variantes, como o meta-acon, que alcançou o dobro do aumento gratuito em comparação com o SENet. Verificamos o desempenho de generalização desta função de ativação concisa e eficaz em múltiplas tarefas. Palavras-chave: função de ativação, rede neural https://arxiv.org/abs/2009.04759
Neste artigo, analisamos primeiro o papel do FPN no detector de estágio único RetinaNet. Por meio de experimentos, descobrimos que a ideia de dividir e conquistar de atribuir objetos de diferentes escalas a diferentes níveis de detecção no FPN tem um grande impacto. impacto nos resultados da detecção. Do ponto de vista da otimização, essa ideia decompõe o problema de otimização na detecção, simplificando o aprendizado da otimização e melhorando a precisão da detecção. No entanto, o design do FPN baseado em recursos multiníveis complica a estrutura da rede do método de detecção, introduz cálculos adicionais e diminui a velocidade de detecção. Para evitar os problemas acima, este artigo propõe detectar objetos de todas as escalas em um único nível. Ao mesmo tempo, para resolver o problema de difícil otimização na detecção de características de nível único, uma solução de codificador de furos e correspondência balanceada é. proposto.
A precisão de detecção do detector YOLOF baseado em recursos de nível único proposto neste artigo é comparável à do RetinaNet baseado em FPN quando usa apenas recursos C5, e a velocidade de detecção é 2,5 vezes maior que a do RetinaNet. Além disso, em comparação com o DETR, que também utiliza apenas recursos C5, o YOLOF pode alcançar desempenho comparável com convergência mais rápida (7x). Palavras-chave: detecção de alvo em estágio único, recursos de escala única, equilíbrio entre velocidade e precisão de detecção https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
Melhorar o desempenho do detector sem aumentar o custo de rotulagem é o objetivo deste estudo. Este artigo seleciona um pequeno número de caixas delimitadoras e um grande número de anotações de pontos para treinar o detector. A anotação de ponto é escolhida porque é rica em informações: contém informações de localização e categoria da instância e o custo da anotação é baixo. Este artigo propõe Point DETR estendendo o codificador de ponto para DETR. A estrutura geral é: treinar Point DETR por meio de dados de caixa delimitadora; codificar anotações de ponto em consultas e prever pseudo-caixas de treinamento de alunos; No conjunto de dados COCO, usando apenas 20% de dados totalmente anotados, nosso detector atinge 33,3AP, excedendo a linha de base em 2,0AP. Palavras-chave: detecção de alvos, semissupervisionado, supervisão fraca
As lentes grande angulares são apreciadas por seu amplo campo de visão, mas sofrem de distorção de lente e distorção de perspectiva, que se manifestam como linhas curvas de fundo, alongamento, compressão e inclinação de rostos, etc. Para tanto, este artigo constrói uma rede de desdistorção em cascata composta por uma rede de correção de linha, uma rede de correção de face e um módulo de transição, de modo que o fundo apresente projeção em perspectiva e a área da face apresente projeção estereoscópica, e transições suaves entre os dois áreas, de modo que em Elimine várias distorções enquanto mantém o FOV. Este método não requer parâmetros de câmera, pode atingir desempenho em tempo real e supera os métodos existentes em avaliações qualitativas e quantitativas. Palavras-chave: correção de distorção de retrato grande angular, rede em cascata profunda
Propomos um novo método de aprendizagem de fluxo óptico não supervisionado UPFlow. Descobrimos que o atual método de fluxo óptico não supervisionado tem dois problemas no processamento de pirâmide multiescala: o problema da ambigüidade de interpolação no processo de upsampling de fluxo e o problema da falta de supervisão do fluxo multiescala. Nesse sentido, propomos um módulo de upsampling autoguiado que utiliza um fluxo de interpolação e um mapa de interpolação para alterar o mecanismo de interpolação de upsampling, conseguindo assim um upsampling mais refinado. Além disso, propomos usar a saída final da rede como pseudo-rótulos para supervisionar o aprendizado do fluxo multiescala. Com base nessas melhorias, nosso método é capaz de obter resultados de fluxo óptico mais claros e nítidos. Conduzimos experimentos em vários conjuntos de dados de benchmark de fluxo óptico, incluindo Sintel, KITTI 2012 e KITTI 2015. O desempenho do UPFlow excede o melhor algoritmo de fluxo óptico não supervisionado atual em cerca de 20%. Palavras-chave: estimativa de fluxo óptico, aprendizagem não supervisionada https://arxiv.org/abs/2012.00212
NBNet é um framework que resolve o problema de redução de ruído de imagem. Abordamos este problema com uma nova perspectiva: projeção adaptativa de imagem. Especificamente, aprendemos um conjunto de subespaços no espaço de características, e a remoção de ruído da imagem pode ser realizada selecionando um subespaço de sinal apropriado e projetando-o neste subespaço. Em comparação com a estrutura de rede de um volume anterior, a NBNet pode extrair e utilizar de forma natural e mais eficiente informações estruturais em imagens por meio de projeção, especialmente áreas de textura fraca, para nos ajudar a restaurar imagens. Através de um método tão simples, a NBNet alcançou SOTA nos dois benchmarks de DND e SIDD com menos cálculos. Palavras-chave: remoção de ruído de imagem, subespaço https://arxiv.org/abs/2012.15028
Este trabalho introduz a "faixa dinâmica", um atributo importante em métricas, no aprendizado métrico profundo, resultando em uma nova tarefa chamada "aprendizado métrico dinâmico". Descobrimos que as medições de profundidade anteriores continham apenas uma escala, como apenas distinguir se rostos e pedestres eram semelhantes ou diferentes. Não importa quão precisas sejam essas ferramentas de medição, elas são inflexíveis e têm usos limitados no uso real. Na verdade, nossas ferramentas de medição diárias geralmente possuem uma faixa dinâmica. Por exemplo, uma régua sempre possui múltiplas escalas (como 1 mm, 1 cm ou até 10 cm) para medir objetos de diferentes escalas. Acreditamos que chegou a hora de o campo do aprendizado métrico profundo introduzir a faixa dinâmica. Porque os próprios conceitos visuais têm tamanhos diferentes. “Animais” e “plantas” correspondem todos a escalas grandes, enquanto “alce” corresponde a escalas relativamente pequenas. Em pequena escala, dois alces podem parecer muito diferentes, mas em outra grande escala, os mesmos dois alces devem ser considerados muito semelhantes.
Para tanto, propomos esta tarefa de aprendizagem métrica dinâmica, que requer a aprendizagem de um único espaço métrico que possa fornecer simultaneamente medidas de similaridade para conceitos visuais de diferentes tamanhos semânticos. Além disso, construímos três conjuntos de dados multiescala e propomos um método de linha de base simples. Acreditamos que a faixa dinâmica se tornará uma propriedade indispensável do aprendizado métrico profundo e trará novas perspectivas e novos cenários de aplicação para todo o campo do aprendizado métrico profundo.
Rede integrada por geometria de anatomia gráfica 3D para segmentação de massa pancreática, diagnóstico e gerenciamento quantitativo de pacientes
Rastreador de lesões profundas: monitoramento de lesões em estudos de imagens longitudinais 4D https://arxiv.org/abs/2012.04872
Localização e identificação automática de vértebras em tomografia computadorizada por retificação da coluna e otimização anatomicamente restrita https://arxiv.org/abs/2012.07947
CNNs 3D com resoluções de recursos temporais adaptativos https://arxiv.org/abs/2011.08652
KeepAugment: um aumento simples de dados que preserva informações https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: uso não intencional de GANs pré-treinados de caixa preta https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: campos de radiação neural para cenas dinâmicas https://arxiv.org/abs/2011.13961
Redes grosseiras para detecção de atividade temporal em vídeos
Localização de instância para pré-treinamento de detecção autosupervisionada https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Resposta visual fundamentada a perguntas com supervisão fraca usando cápsulas
Segmentação Panóptica LiDAR 4D https://arxiv.org/abs/2102.12472
Dogfight: Detectando Drones em Vídeos de Drones
Aprendizado ativo de múltiplas instâncias para detecção de objetos https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Reconsiderando o alinhamento de representação para clustering multivisualização
Previsão simultânea auto-supervisionada em várias etapas da dinâmica rodoviária e mapa de custos
Tradução de imagem para imagem via desemaranhamento de estilo hierárquico Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: representações de vídeo independentes de fluxo para interpolação rápida de quadros https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: fusão multiescala de descritores localmente globais para reconhecimento de local Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
Profundidade do movimento da câmera e detecção de objetos Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: Pré-treinamento não supervisionado para detecção de objetos com transformadores https://arxiv.org/pdf/2011.09094.pdf
Restauração progressiva de imagem em vários estágios https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Aprendizagem fracamente supervisionada de fluxo de cena 3D rígido https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Explorando forças complementares de representações invariantes e equivariantes para aprendizagem de poucas tentativas Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
Reetiquetando ImageNet: de rótulos únicos para rótulos múltiplos, de rótulos globais para rótulos localizados https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Repensando as dimensões do canal para um design de modelo eficiente https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Redes grosseiras para detecção de atividade temporal em vídeos Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
Um emulador profundo para movimento secundário de personagens 3D Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
Classificação justa de atributos por meio de eliminação de preconceito de espaço latente https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
Fusão de exposição automática para remoção de sombra de imagem única Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Menos é mais: CLIPBERT para aprendizagem de vídeo e idiomas por meio de amostragem esparsa https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: reconstrução escalonável e adaptativa para detecção compressiva de vídeo Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: Melhorando a pesquisa de arquitetura neural via Attentive https://arxiv.org/pdf/2011.09011.pdf
Modelos probabilísticos de difusão para geração de nuvem de pontos 3D Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
Há mais do que aparenta: detecção autosupervisionada de múltiplos objetos e rastreamento com som por destilação de conhecimento multimodal Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
Codificação com estilo: um codificador StyleGAN para tradução imagem para imagem https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Aprendizagem de políticas hierárquicas e parcialmente observáveis orientadas por metas com gráfico relacional de metas Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: Tornando ConvNets estilo VGG excelentes novamente https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Interpretabilidade do transformador além da visualização da atenção https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDADOR: Registro de nuvens de pontos 3D com baixa sobreposição https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Destilação de conhecimento multirresolução para detecção de anomalias https://arxiv.org/abs/2011.11108
Purificação de dados sem rótulo positivo em uso para detecção de objetos
Destilação de conhecimento sem dados para super-resolução de imagens
Poda de rede dinâmica regularizada múltipla
Transformador de processamento de imagem pré-treinado https://arxiv.org/pdf/2012.00364.pdf
ReNAS: avaliação relativística da pesquisa de arquitetura neural https://arxiv.org/pdf/1910.01523.pdf
AdderSR: Rumo à super-resolução de imagem com eficiência energética https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Aprendendo redes de estudantes em estado selvagem https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: pesquisa de arquitetura neural extremamente rápida por meio de lentes de ampulheta https://arxiv.org/pdf/2005.14446.pdf
Incorporações probabilísticas para recuperação intermodal https://arxiv.org/abs/2101.05068
PLOP: Aprendendo sem esquecer para segmentação semântica contínua https://arxiv.org/abs/2011.11390
Memória Arco-Íris: Aprendizagem Contínua com uma Memória de Diversos Exemplos
Explorando dimensões espaciais de latente em GAN para edição de imagens em tempo real
1.GhostNet: Mais recursos de operações baratas (arquitetura além do Mobilenet v3) Link do artigo: https://arxiv.org/pdf/1911.11907arxiv.org Modelo (desempenho incrível em CPU ARM): https://github com/iamhankai. /ghostnetgithub.com
Vencemos outros CNNs leves da SOTA, como MobileNetv3 e FBNET.
AdderNet: Realmente precisamos de multiplicações em aprendizado profundo (rede neural aditiva) alcançou um bom desempenho em redes neurais e conjuntos de dados em larga escala
Domínio de frequência Compacto de redes neurais convolucionais 3D (compactação 3DCNN) Link para papel: https://arxiv.org/pdf/1909.04977arxiv.org Código fonte aberta: https://github.com/huawei-noah/carsgithub.com.com
Um assessor semi-supervisionado de arquiteturas neurais (pretitora de precisão da rede neural NAS)
Hit-DeTector: Hierárquica Pesquisa de Arquitetura da Trinidade por Detecção de Objetos (Detecção NAS) Pesquisa de Cheque de Backbon-decote juntos, Trinity
Carros: a evolução contínua para a pesquisa eficiente da arquitetura neural (NAS) é eficiente, tem várias vantagens de diferença e evolução e pode gerar pesquisa de pareto frontal pesquisa
Na classificação positiva e não iluminada em GaN (PU+GAN)
Aprendizando o link de papel da nuvem de pontos 3D Multiview Point (nuvem 3D Point): arxiv.org/abs/2001.05119
Adaptação de domínio multimodal para ação de reconhecimento de ação fina: arxiv.org/abs/2001.09691
Modificadores de Ação: Aprendendo com Advérbios no Link de papel de vídeo instrucional: arxiv.org/abs/1912.06617
PolarMask: Segmentação de instância de tiro único com representação polar (modelagem de segmentação de instância) Link: arxiv.org/abs/1909.13226 Interpretação de papel: https://zhuanlan.zhihu.com/p/84890413 Código fonte: https: // gith. com/xieenze/polarmask
Repensando a estimativa de desempenho na pesquisa de arquitetura neural (NAS) Como a parte real do tempo da pesquisa de arquitetura neural em bloco é a parte de estimativa de desempenho, este artigo encontra os parâmetros ideais para as NAs de bloco, que é mais rápido e relevante.
Representação de coordenadas conscientes da distribuição para a pose humana Link: arxiv.org/abs/1910.06278 github: https://github.com/ilovepose/Darkpose Author Team Página inicial: https://ilovepose.github.io/ coco/coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. Gere gráfico de cena imparcial a partir de treinamento tendencioso
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184