Lien : https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA Code d'extraction : vwkx
mise à jour : 02/03/2022 Mettre à jour certaines interprétations d'articles
MHFormer : transformateur multi-hypothèses pour l'estimation de la pose humaine en 3D
Article : https://arxiv.org/pdf/2111.12707.pdf
Code : https://github.com/Vegetebird/MHFormer
Cet article vise à utiliser une forme entièrement convolutionnelle pour exprimer et prédire uniformément les objets et les environnements environnants, obtenant ainsi une segmentation panoramique précise et efficace. Plus précisément, cet article propose un générateur de noyau de convolution qui code les informations sémantiques de chaque objet et de chaque type d'environnement dans différents noyaux de convolution, et les convolutionne avec des cartes de fonctionnalités haute résolution pour générer directement les résultats de segmentation de chaque premier plan et arrière-plan. Grâce à cette approche, les différences individuelles et la cohérence sémantique des objets et des environnements peuvent être respectivement préservées. Cette méthode permet d’obtenir des résultats de pointe en termes de rapidité et de précision sur plusieurs ensembles de données de segmentation panoramique. Mots-clés : expression unifiée, convolution dynamique, segmentation panoptique arxiv : https://arxiv.org/abs/2012.00720 github : https://github.com/yanwei-li/PanopticFCN
papier oral
FFB6D propose un cadre d'apprentissage de représentation RGBD à fusion bidirectionnelle à flux complet de réseau et l'applique au problème d'estimation de pose 6D. Nous avons constaté que les méthodes d'apprentissage des représentations existantes ne parviennent pas à faire bon usage des deux sources de données complémentaires que sont les informations d'apparence en RVB et les informations géométriques dans les cartes de profondeur (nuages de points).
À cette fin, nous concevons un module de fusion dense bidirectionnel et l’appliquons à chaque couche d’encodage et de décodage du réseau CNN et nuage de points. Ce mécanisme de fusion bidirectionnelle à plein débit permet aux deux réseaux d'utiliser pleinement les informations complémentaires locales et globales extraites l'une de l'autre, obtenant ainsi de meilleures représentations pour les tâches de prédiction en aval. De plus, en termes de sélection de représentation de sortie, nous avons conçu un algorithme de sélection de points clés SIFT-FPS basé sur la texture et les informations géométriques de l'élément, ce qui simplifie la difficulté du réseau à localiser les points clés et améliore la précision de pose. Notre méthode permet d’obtenir des améliorations significatives sur plusieurs benchmarks. Et ce réseau principal d'apprentissage de la représentation RGBD peut être appliqué à des tâches plus visuelles avec RGBD comme entrée en mettant en cascade différents réseaux de prédiction. Mots clés : apprentissage des représentations RGBD, vision 3D, estimation de pose 6D PDF : https://arxiv.org/abs/2103.02242 code : https://github.com/ethnhe/FFB6D
La science et la technologie sont toujours en pleine ascension. Nous avons « relancé » l'architecture de réseau neuronal convolutionnel minimaliste monocanal de style VGG, avec une convolution 3x3 jusqu'à la fin. Elle a atteint le niveau SOTA en termes de vitesse et de performances, et a un taux de précision de plus de 80 %. ImageNet.
Afin de surmonter la difficulté de former l'architecture de style VGG, nous utilisons le reparamétrage structurel pour construire le mappage d'identité et la branche de convolution 1x1 dans le modèle pendant la formation, puis les fusionnons de manière équivalente en 3x3 après la formation, donc le modèle. ne contient que une convolution 3x3 lors de l'inférence. Cette architecture ne comporte aucune structure de branchement, elle est donc hautement parallèle et très rapide. Et comme la partie principale ne comporte qu'un seul opérateur, "3x3-ReLU", elle est particulièrement adaptée au matériel personnalisé. Mots-clés : reparamétrage structurel, architecture minimaliste, modèle efficace https://arxiv.org/abs/2101.03697
Cet article propose une nouvelle opération de convolution : Dynamic Region-Aware Convolution (DRConv : Dynamic Region-Aware Convolution), qui peut allouer des noyaux de convolution personnalisés à différentes zones planes en fonction de la similarité des caractéristiques. Par rapport aux convolutions traditionnelles, cette méthode de convolution améliore considérablement la capacité de modélisation de la diversité des informations sémantiques des images. Les couches de convolution standard peuvent augmenter le nombre de noyaux de convolution pour extraire davantage d'éléments visuels, mais entraîneront des coûts de calcul plus élevés. DRConv utilise un allocateur apprenable pour transférer des noyaux de convolution progressivement croissants vers des dimensions planaires, ce qui améliore non seulement la capacité de représentation de la convolution, mais maintient également le coût de calcul et l'invariance de traduction.
DRConv est une méthode efficace et élégante pour gérer la distribution complexe et variée d'informations sémantiques. Il peut remplacer les convolutions standard dans n'importe quel réseau existant grâce à ses caractéristiques plug-and-play et présente des améliorations de performances significatives pour les réseaux légers. Cet article évalue DRConv sur divers modèles (série MobileNet, ShuffleNetV2, etc.) et tâches (classification, reconnaissance faciale, détection et segmentation). Dans la classification ImageNet, ShuffleNetV2-0.5× basé sur DRConv au niveau de 46 millions de calculs, atteignant 67,1 % de performances. , une amélioration de 6,3 % par rapport à la référence. https://arxiv.org/abs/2003.12243
Nous proposons un module de base de réseau convolutif (DBB) pour enrichir la microstructure du modèle lors de l'entraînement sans changer sa macrostructure, améliorant ainsi ses performances. Ce module peut être converti de manière équivalente en convolution via un reparamétrage structurel après la formation, n'introduisant ainsi aucune surcharge d'inférence supplémentaire. image
Nous avons résumé six structures qui peuvent être transformées de manière équivalente, y compris la convolution continue 1x1-KxK, le pooling moyen, etc., et avons utilisé ces six transformations pour donner une instance DBB représentative similaire à Inception, qui peut être utilisée sur diverses architectures. améliorations des performances. Nous avons confirmé par des expériences que la « non-linéarité lors de l'entraînement » (mais linéaire lors de l'inférence, comme BN) et les « liens divers » (par exemple, 1x1+3x3 vaut mieux que 3x3+3x3) sont les clés de l'efficacité du DBB. . Mots clés : reparamétrage de la structure, pas de surcharge de raisonnement, amélioration indolore
La plupart des travaux antérieurs se sont concentrés sur les performances d’échantillons de petites classes au détriment des performances d’échantillons de grandes classes. Cet article propose un détecteur de cible d'échantillon de petite classe sans effet d'oubli, qui peut obtenir de meilleures performances des catégories d'échantillons de petite classe sans perdre les performances des catégories d'échantillons de grande classe. Dans cet article, nous constatons que les détecteurs pré-entraînés produisent rarement des prédictions faussement positives sur des classes invisibles, et nous constatons également que RPN n'est pas un composant indépendant de classe idéal. Sur la base de ces deux résultats, nous avons conçu deux structures simples et efficaces, le redétecteur et le RPN à biais équilibré, qui peuvent réaliser une détection de cible d'échantillon de petite classe sans oublier l'effet en ajoutant seulement un petit nombre de paramètres et un temps d'inférence. Mots-clés : apprentissage sur petits échantillons, détection de cible
Cet article propose un cadre unifié pour gérer les tâches de reconnaissance visuelle contenant des distributions de données à longue traîne. Nous avons d’abord mené une analyse expérimentale des méthodes existantes en deux étapes pour traiter les problèmes de longue traîne, et découvert les principaux goulots d’étranglement en termes de performances des méthodes existantes. Sur la base d'une analyse expérimentale, nous proposons une stratégie d'alignement de distribution pour résoudre systématiquement les tâches de vision à longue traîne.
Le cadre est conçu sur la base d'une méthode en deux étapes. Dans la première étape, une stratégie d'échantillonnage équilibrée par instances est utilisée pour l'apprentissage de la représentation des caractéristiques (apprentissage de la représentation). Dans la deuxième étape, nous avons d'abord conçu une fonction d'alignement sensible aux entrées pour corriger le score des données d'entrée. Dans le même temps, afin d'introduire a priori la distribution des ensembles de données, nous avons conçu un schéma de repondération généralisé pour gérer divers scénarios de tâches visuelles tels que la classification d'images, la segmentation sémantique, la détection d'objets et la segmentation d'instances. Nous avons vérifié notre méthode sur quatre tâches et obtenu des améliorations significatives des performances sur chaque tâche. Mots-clés : classification d'images, segmentation sémantique, détection d'objets, segmentation d'instances
Pour la première fois, cet article supprime le post-traitement NMS (suppression non maximale) sur le détecteur de cible entièrement convolutif et réalise une formation de bout en bout. Nous avons analysé les méthodes traditionnelles de détection d'objets en une étape et avons constaté que la stratégie traditionnelle d'attribution d'étiquettes un à plusieurs est la clé de ces méthodes reposant sur NMS. Nous avons donc proposé une stratégie d'attribution d'étiquettes un à un tenant compte des prédictions. De plus, afin d'améliorer les performances de l'attribution d'étiquettes un à un, nous proposons des modules qui améliorent les capacités de représentation des caractéristiques et des fonctions de perte auxiliaires qui accélèrent la convergence des modèles. Notre méthode atteint des performances comparables aux méthodes traditionnelles de détection d’objets en une étape sans NMS. Sur des scènes denses, le rappel de notre méthode dépasse la limite supérieure théorique des méthodes de détection d'objets s'appuyant sur NMS. Mots-clés : détection de bout en bout, attribution d'étiquettes, réseau entièrement convolutif https://arxiv.org/abs/2012.03544
Nous proposons une stratégie d'appariement d'échantillons de détection de cible basée sur la théorie de la transmission optimale, qui utilise des informations globales pour trouver des résultats d'appariement d'échantillons optimaux. Par rapport à la technologie d'appariement d'échantillons existante, elle présente les avantages suivants : 1). Les résultats de correspondance globalement optimaux peuvent aider le détecteur à être formé de manière stable et efficace, et finalement atteindre des performances de détection optimales sur l'ensemble de données COCO. 2). Large gamme de scénarios applicables. Les algorithmes de détection de cibles existants doivent repenser les stratégies ou ajuster les paramètres lorsqu'ils rencontrent des scènes complexes telles que des cibles denses ou une occlusion grave. Le modèle de transmission optimal inclut le processus de recherche de la solution optimale dans le processus de modélisation globale, sans aucun ajustement supplémentaire. -des performances de pointe dans diverses scènes avec des cibles denses et une occlusion sévère, et présente un grand potentiel d'application. Mots clés : détection de cible, transmission optimale, stratégie d'appariement d'échantillons
Étant donné que l'attribution d'étiquettes du détecteur à un étage est statique et ne prend pas en compte les informations globales du cadre objet, nous proposons un détecteur d'objet basé sur l'échantillonnage de la distribution de masse des objets. Dans cet article, nous proposons le module de codage de distribution de qualité QDE et le module d'échantillonnage de distribution de qualité QDS. En extrayant les caractéristiques régionales du cadre cible et en modélisant la distribution de qualité du cadre de prédiction basé sur le modèle de mélange gaussien, nous pouvons sélectionner dynamiquement le module de codage de distribution de qualité. valeur positive de la trame de détection. Allocation d’échantillon négative. Cette méthode implique uniquement l'attribution d'étiquettes dans la phase de formation et peut obtenir les meilleurs résultats actuels sur plusieurs ensembles de données tels que COCO. Mots-clés : attribution d'étiquettes
La méthode FSCE proposée dans l'article vise à résoudre le problème de la détection d'objets sur petits échantillons du point de vue de l'optimisation de la représentation des caractéristiques. Dans les tâches de détection d'objets sur petits échantillons, le nombre d'échantillons cibles est limité et la classification correcte des échantillons cibles a souvent un impact important sur les performances finales. La FSCE utilise l'idée d'apprentissage contrasté pour coder les trames candidates pertinentes et optimiser leur représentation des caractéristiques, renforçant ainsi la compacité intra-classe et la répulsion inter-classe des caractéristiques. La méthode finale a été efficacement améliorée sur les ensembles de données communs COCO et Pascal VOC. . Mots-clés : détection de cibles sur petits échantillons, lien vers le document d'apprentissage comparatif : https://arxiv.org/abs/2103.05950
L'algorithme NAS grand public existant effectue une recherche de modèle via les performances de prédiction du sous-réseau sur l'ensemble de vérification. Cependant, dans le cadre du mécanisme de partage de paramètres, il existe une grande différence entre les performances de prédiction sur l'ensemble de vérification et les performances réelles du modèle. Pour la première fois, nous avons brisé le paradigme de l'évaluation du modèle basé sur les performances de prédiction, évalué les sous-réseaux du point de vue de la vitesse de convergence du modèle et émis l'hypothèse que plus le modèle converge rapidement, plus ses performances de prédiction correspondantes seront élevées.
Sur la base du cadre de convergence des modèles, nous avons constaté que la convergence des modèles n'a rien à voir avec les étiquettes réelles des images et avons en outre proposé un nouveau paradigme NAS-RLNAS qui utilise des étiquettes aléatoires pour la formation des super-réseaux. RLNAS a été vérifié dans plusieurs ensembles de données (NAS-Bench-201, ImageNet) et plusieurs espaces de recherche (DARTS, type MobileNet). Les résultats expérimentaux montrent que RLNAS peut atteindre les performances du NAS existant en utilisant uniquement des structures recherchées pour des étiquettes aléatoires. Niveau SOTA. RLNAS semble contre-intuitif au début, mais ses résultats étonnamment bons fournissent une base de référence plus solide pour la communauté NAS et inspirent davantage la réflexion sur la nature du NAS. Mots clés : recherche d'architecture de réseau neuronal, hypothèse de convergence du modèle, étiquette aléatoire https://arxiv.org/abs/2101.11834
Les algorithmes actuels d’estimation de la pose humaine utilisent la régression par carte thermique pour obtenir les points de jonction finaux. Ces méthodes utilisent généralement un noyau gaussien 2D à écart type fixe couvrant tous les points clés du squelette pour construire une véritable carte thermique, et utilisent la véritable carte thermique pour superviser le modèle. Étant donné que les cartes thermiques réelles des points de jonction de différentes personnes sont construites en utilisant le même noyau gaussien, cette méthode ne prend pas en compte les différences d'échelle de différentes personnes, ce qui entraînerait une ambiguïté des étiquettes et affecterait l'effet du modèle.
Cet article propose une régression de carte thermique adaptative à l'échelle qui peut générer de manière adaptative l'écart type requis pour construire des étiquettes basées sur la taille du corps humain, rendant ainsi le modèle plus robuste aux corps humains de différentes échelles et propose une régression adaptative au poids ; Équilibrez les échantillons positifs et négatifs et explorez plus en détail l'effet de régression de la carte thermique adaptative à l'échelle. Cet article atteint enfin les performances les plus avancées en matière d’estimation ascendante de la pose humaine. Mots-clés : estimation de la pose humaine, ascendante, régression adaptative par carte thermique https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID propose une nouvelle méthode de distillation basée sur des tâches de détection. En extrayant les instances générales (IG) des enseignants et des étudiants respectivement, le module GISM est proposé pour sélectionner de manière adaptative des instances présentant de grandes différences pour une distillation basée sur les caractéristiques, les relations et les réponses. Cette méthode applique pour la première fois la distillation des connaissances relationnelles au cadre de détection et unifie l'objectif de distillation depuis la prise en compte indépendante de la distillation des échantillons positifs et négatifs jusqu'à une distillation GI plus essentielle. Le processus ne repose pas sur GT et atteint SOTA. Mots-clés : détection de cibles, distillation des connaissances https://arxiv.org/abs/2103.02340
Nous proposons une nouvelle fonction d'activation ACON (activer ou non), qui peut apprendre de manière adaptative à s'activer ou non. ACON a établi le lien entre ReLU et Swish : nous avons constaté que bien que les deux formes soient très différentes, Swish est une forme fluide de ReLU. Sur la base de cette découverte, nous avons en outre proposé davantage de variantes, telles que le méta-acon, qui ont permis d'obtenir une augmentation gratuite deux fois supérieure à celle de SENet. Nous vérifions les performances de généralisation de cette fonction d’activation concise et efficace sur plusieurs tâches. Mots-clés : fonction d'activation, réseau neuronal https://arxiv.org/abs/2009.04759
Dans cet article, nous avons d'abord analysé le rôle du FPN dans le détecteur à un étage RetinaNet. Grâce à des expériences, nous avons constaté que l'idée de diviser pour régner consistant à attribuer des objets de différentes échelles à différents niveaux de détection dans FPN a une grande importance. impact sur les résultats de détection. Du point de vue de l'optimisation, cette idée décompose le problème d'optimisation en détection, simplifiant ainsi l'apprentissage de l'optimisation et améliorant la précision de la détection. Cependant, la conception du FPN basée sur des fonctionnalités multi-niveaux complique la structure du réseau de la méthode de détection, introduit des calculs supplémentaires et ralentit la vitesse de détection. Afin d'éviter les problèmes ci-dessus, cet article propose de détecter des objets de toutes échelles à un seul niveau. En même temps, pour résoudre le problème de l'optimisation difficile dans la détection de caractéristiques à un seul niveau, une solution d'encodeur de trous et de correspondance équilibrée est proposée. proposé.
La précision de détection du détecteur YOLOF basé sur des fonctionnalités à un seul niveau proposé dans cet article est comparable à celle de RetinaNet basé sur FPN lorsqu'il utilise uniquement les fonctionnalités C5, et la vitesse de détection est 2,5 fois supérieure à celle de RetinaNet. De plus, par rapport à DETR, qui utilise également uniquement les fonctionnalités C5, YOLOF peut atteindre des performances comparables avec une convergence plus rapide (7x). Mots-clés : détection de cible en une seule étape, fonctionnalités à échelle unique, équilibre entre vitesse de détection et précision https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
Améliorer les performances du détecteur sans augmenter le coût de l’étiquetage est l’objectif de cette étude. Cet article sélectionne un petit nombre de boîtes englobantes et un grand nombre d'annotations de points pour entraîner le détecteur. L'annotation ponctuelle est choisie car elle est riche en informations : elle contient les informations d'emplacement et de catégorie de l'instance, et le coût de l'annotation est faible. Cet article propose Point DETR en étendant l'encodeur de point à DETR. Le cadre global est le suivant : entraîner Point DETR via les données de boîte englobante ; coder les annotations de points dans des requêtes et prédire les pseudo-boîtes ; Sur l'ensemble de données COCO, en utilisant seulement 20 % de données entièrement annotées, notre détecteur atteint 33,3AP, dépassant la ligne de base de 2,0AP. Mots clés : détection de cible, semi-supervisé, supervision faible
Les objectifs grand angle sont appréciés pour leur large champ de vision, mais ils souffrent de distorsion de l'objectif et de distorsion de perspective, qui se manifestent par des lignes d'arrière-plan incurvées, un étirement, une compression et une inclinaison des visages, etc. À cette fin, cet article construit un réseau de dé-distorsion en cascade composé d'un réseau de correction de ligne, d'un réseau de correction de visage et d'un module de transition, de sorte que l'arrière-plan présente une projection en perspective et que la zone du visage présente une projection stéréoscopique, et des transitions en douceur entre les deux. zones, de sorte qu'en éliminant diverses distorsions tout en conservant le FOV. Cette méthode ne nécessite pas de paramètres de caméra, peut atteindre des performances en temps réel et surpasse les méthodes existantes en termes d'évaluations qualitatives et quantitatives. Mots-clés : correction de la distorsion des portraits grand angle, réseau en cascade profonde
Nous proposons une nouvelle méthode d'apprentissage de flux optique non supervisée UPFlow. Nous avons constaté que la méthode actuelle de flux optique non supervisé présente deux problèmes dans le traitement pyramidal multi-échelles : le problème de l'ambiguïté d'interpolation dans le processus de suréchantillonnage du flux et le problème du manque de supervision du flux multi-échelle. À cet égard, nous proposons un module de suréchantillonnage autoguidé qui utilise un flux d'interpolation et une carte d'interpolation pour modifier le mécanisme d'interpolation de suréchantillonnage, obtenant ainsi un suréchantillonnage plus raffiné. De plus, nous proposons d'utiliser la sortie finale du réseau comme pseudo-étiquettes pour superviser l'apprentissage des flux multi-échelles. Sur la base de ces améliorations, notre méthode est capable d’obtenir des résultats de flux optique plus clairs et plus précis. Nous menons des expériences sur plusieurs ensembles de données de référence sur le flux optique, notamment Sintel, KITTI 2012 et KITTI 2015. Les performances d'UPFlow dépassent d'environ 20 % le meilleur algorithme de flux optique non supervisé actuel. Mots-clés : estimation du flux optique, apprentissage non supervisé https://arxiv.org/abs/2012.00212
NBNet est un framework qui résout le problème de réduction du bruit d'image. Nous abordons ce problème avec une nouvelle perspective : la projection adaptative d'image. Plus précisément, nous apprenons un ensemble de sous-espaces sur l'espace des caractéristiques, et le débruitage de l'image peut être réalisé en sélectionnant un sous-espace de signal approprié et en projetant sur ce sous-espace. Par rapport à la structure de réseau précédente en un seul volume, NBNet peut extraire et utiliser naturellement et plus efficacement les informations structurelles des images par projection, en particulier les zones de texture faible, pour nous aider à restaurer les images. Grâce à une méthode aussi simple, NBNet a atteint SOTA sur les deux références du MDN et du SIDD avec moins de calculs. Mots-clés : débruitage d'image, sous-espace https://arxiv.org/abs/2012.15028
Ce travail introduit la « plage dynamique », un attribut important des métriques, dans l'apprentissage métrique approfondi, aboutissant à une nouvelle tâche appelée « apprentissage dynamique des métriques ». Nous avons constaté que les mesures de profondeur précédentes ne contenaient en réalité qu'une seule échelle, par exemple permettant de distinguer uniquement si les visages et les piétons étaient similaires ou différents. Quelle que soit la précision de ces outils de mesure, ils sont rigides et ont des utilisations limitées dans la réalité. En fait, nos outils de mesure quotidiens ont généralement une plage dynamique. Par exemple, une règle a toujours plusieurs échelles (comme 1 mm, 1 cm ou même 10 cm) pour mesurer des objets de différentes échelles. Nous pensons que le moment est venu pour le domaine de l’apprentissage métrique profond d’introduire la plage dynamique. Parce que les concepts visuels eux-mêmes ont des tailles différentes. « Animaux » et « plantes » correspondent tous à de grandes échelles, tandis que « élan » correspond à des échelles relativement petites. À petite échelle, deux wapitis peuvent sembler très différents, mais à une autre grande échelle, les deux mêmes wapitis devraient être considérés comme très similaires.
À cette fin, nous proposons cette tâche d’apprentissage dynamique des métriques, qui nécessite l’apprentissage d’un seul espace métrique pouvant simultanément fournir des mesures de similarité pour des concepts visuels de différentes tailles sémantiques. De plus, nous construisons trois ensembles de données multi-échelles et proposons une méthode de base simple. Nous pensons que la plage dynamique deviendra une propriété indispensable de l’apprentissage profond des métriques et apportera de nouvelles perspectives et de nouveaux scénarios d’application à l’ensemble du domaine de l’apprentissage profond des métriques.
Réseau intégré à la géométrie anatomique graphique 3D pour la segmentation de la masse pancréatique, le diagnostic et la gestion quantitative des patients
Suivi des lésions profondes : surveillance des lésions dans les études d'imagerie longitudinale 4D https://arxiv.org/abs/2012.04872
Localisation et identification automatiques des vertèbres en tomodensitométrie par rectification de la colonne vertébrale et optimisation anatomiquement contrainte https://arxiv.org/abs/2012.07947
CNN 3D avec résolutions de fonctionnalités temporelles adaptatives https://arxiv.org/abs/2011.08652
KeepAugment : une augmentation simple des données préservant les informations https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN : utilisation involontaire de GAN pré-entraînés et Black-Box https://arxiv.org/pdf/2011.14107.pdf
D-NeRF : Champs de rayonnement neuronal pour les scènes dynamiques https://arxiv.org/abs/2011.13961
Réseaux grossiers-fins pour la détection de l'activité temporelle dans les vidéos
Localisation d'instance pour la pré-formation à la détection auto-supervisée https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Réponse visuelle aux questions fondées et faiblement supervisées à l'aide de capsules
Segmentation LiDAR panoptique 4D https://arxiv.org/abs/2102.12472
Dogfight : Détection de drones à partir de vidéos de drones
Apprentissage actif à instances multiples pour la détection d'objets https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Reconsidérer l'alignement des représentations pour le clustering multi-vues
Prédiction simultanée auto-supervisée en plusieurs étapes de la dynamique routière et de la carte des coûts
Traduction image à image via le démêlage des styles hiérarchiques Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR : représentations vidéo indépendantes du flux pour une interpolation rapide des images https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD : Fusion multi-échelle de descripteurs locaux-globaux pour la reconnaissance de lieux Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
Profondeur du mouvement de la caméra et détection d'objets Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR : Pré-formation non supervisée pour la détection d'objets avec des transformateurs https://arxiv.org/pdf/2011.09094.pdf
Restauration d'image progressive en plusieurs étapes https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Apprentissage faiblement supervisé du flux de scène 3D rigide https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Explorer les forces complémentaires des représentations invariantes et équivariantes pour l'apprentissage en quelques étapes Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
Réétiquetage d'ImageNet : des étiquettes simples aux étiquettes multiples, des étiquettes globales aux étiquettes localisées https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Repenser les dimensions des canaux pour une conception de modèle efficace https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Réseaux grossiers-fins pour la détection de l'activité temporelle dans les vidéos Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
Un émulateur profond pour le mouvement secondaire des personnages 3D Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
Classification équitable des attributs grâce au débiasing de l'espace latent https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
Fusion d'exposition automatique pour la suppression des ombres sur une seule image Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Moins c'est plus : CLIPBERT pour l'apprentissage vidéo et linguistique via un échantillonnage clairsemé https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI : Reconstruction évolutive et adaptative pour la détection de compression vidéo Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS : Amélioration de la recherche d'architecture neuronale via Attentive https://arxiv.org/pdf/2011.09011.pdf
Modèles probabilistes de diffusion pour la génération de nuages de points 3D Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
Il y a plus que ce que l'on voit : Détection et suivi multi-objets auto-supervisés avec son en distillant des connaissances multimodales Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
Encodage avec style : un encodeur StyleGAN pour la traduction d'image à image https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Apprentissage politique axé sur les objectifs hiérarchique et partiellement observable avec graphique relationnel des objectifs Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG : Rendre les ConvNets de style VGG à nouveau géniaux https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Interprétabilité du transformateur au-delà de la visualisation de l'attention https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR : Enregistrement de nuages de points 3D avec un faible chevauchement https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Distillation des connaissances multirésolution pour la détection des anomalies https://arxiv.org/abs/2011.11108
Purification de données positives et non étiquetées dans la nature pour la détection d'objets
Distillation des connaissances sans données pour une super-résolution d'image
Élagage de réseau dynamique régularisé de manière multiple
Transformateur de traitement d'image pré-entraîné https://arxiv.org/pdf/2012.00364.pdf
ReNAS : évaluation relativiste de la recherche sur l'architecture neuronale https://arxiv.org/pdf/1910.01523.pdf
AdderSR : Vers une super-résolution d'image économe en énergie https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Apprentissage des réseaux d'étudiants dans la nature https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS : recherche d'architecture neuronale extrêmement rapide à travers une lentille de sablier https://arxiv.org/pdf/2005.14446.pdf
Intégrations probabilistes pour la récupération multimodale https://arxiv.org/abs/2101.05068
PLOP : Apprendre sans oublier pour une segmentation sémantique continue https://arxiv.org/abs/2011.11390
Rainbow Memory : apprentissage continu avec une mémoire d'échantillons divers
Exploiter les dimensions spatiales de la latente dans le GAN pour l'édition d'images en temps réel
1.GhostNet : plus de fonctionnalités d'opérations bon marché (architecture au-delà de Mobilenet v3) Lien papier : https://arxiv.org/pdf/1911.11907arxiv.org Modèle (performances étonnantes sur le processeur ARM) : https://github com/iamhankai. /ghostnetgithub.com
Nous avons battu d'autres CNNS légers SOTA tels que MobileNetV3 et FBNET.
Addernet: Avons-nous vraiment besoin de multiplications en profondeur?
Domaine de fréquence Compact 3D Réseaux de neurones convolutionnels (compression 3DCNN) Lien papier: https://arxiv.org/pdf/1909.04977arxiv.org Open Source Code: https://github.com/huawei-noah/carsgithub.com
Un évaluateur semi-supervisé des architectures neuronales (prédicteur de précision du réseau neuronal NAS)
Hit-Detector: Hiérarchical Trinity Architecture Search for Object Detection (NAS DÉTECTION) Recherche de tête de col de cassette ensemble, Trinity
CARS: L'évolution continue pour la recherche efficace de l'architecture neurale (NAS) est efficace, présente de multiples avantages de différenciation et d'évolution, et peut sortir de la recherche de Pareto Front
Sur une classification non étiquetée positive dans Gan (PU + Gan)
Apprentissage Multiview 3D Point Cloud Enregistrement (3D Point Cloud) Lien papier: arXiv.org/abs/2001.05119
Adaptation du domaine multimodal pour le papier de reconnaissance d'action à grain fin: arxiv.org/abs/2001.09691
Modificateurs d'action: Apprentissage des adverbes dans le papier vidéo pédagogique Lien papier: arXiv.org/abs/1912.06617
Polarmask: segmentation des instances de tir unique avec représentation polaire (modélisation de segmentation des instances) Lien papier: arxiv.org/abs/1909.13226 Interprétation du papier: https://zhuanlan.zhihu.com/p/84890413 Code open source: https: // github. com / xieenze / polarmask
Repenser l'estimation des performances dans la recherche d'architecture neuronale (NAS) Étant donné que la partie en temps réel de la recherche d'architecture neuronale sage est la partie d'estimation des performances, cet article trouve les paramètres optimaux pour les NAS de Block Wise, ce qui est plus rapide et plus pertinent.
Distribution Aware Coordinate Representation for Human Pose Estimation(人体姿态估计) 论文链接:arxiv.org/abs/1910.06278 Github:https://github.com/ilovepose/DarkPose 作者团队主页:https://ilovepose.github.io/coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. Générer un graphique de scène impartiale à partir de l'entraînement biaisé
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184