Enlace: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA Código de extracción: vwkx
actualización: 2022/03/02 Actualice algunas interpretaciones del artículo
MHFormer: Transformador de hipótesis múltiples para la estimación de la postura humana en 3D
Documento: https://arxiv.org/pdf/2111.12707.pdf
Código: https://github.com/Vegetebird/MHFormer
Este artículo tiene como objetivo utilizar una forma totalmente convolucional para expresar y predecir de manera uniforme objetos y entornos circundantes, logrando así una segmentación panorámica precisa y eficiente. Específicamente, este artículo propone un generador de núcleos de convolución que codifica la información semántica de cada objeto y cada tipo de entorno en diferentes núcleos de convolución y los convoluciona con mapas de características de alta resolución para generar directamente los resultados de segmentación de cada primer plano y fondo. A través de este enfoque, se pueden preservar respectivamente las diferencias individuales y la coherencia semántica de los objetos y entornos. Este método logra resultados de última generación en velocidad y precisión en múltiples conjuntos de datos de segmentación panorámica. Palabras clave: expresión unificada, convolución dinámica, segmentación panóptica arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
ensayo oral
FFB6D propone un marco de aprendizaje de representación RGBD de fusión bidireccional de flujo completo de red y lo aplica al problema de estimación de pose 6D. Descubrimos que los métodos de aprendizaje de representación existentes no logran hacer un buen uso de las dos fuentes de datos complementarias de información de apariencia en RGB y de información geométrica en mapas de profundidad (nubes de puntos).
Para este fin, diseñamos un módulo de fusión densa bidireccional y lo aplicamos a cada capa de codificación y decodificación de CNN y red de nube de puntos. Este mecanismo de fusión bidireccional de flujo completo permite que las dos redes hagan un uso completo de la información complementaria local y global extraída entre sí, obteniendo así mejores representaciones para las tareas de predicción posteriores. Además, en términos de selección de representación de salida, diseñamos un algoritmo de selección de puntos clave SIFT-FPS basado en la textura y la información geométrica del elemento, lo que simplifica la dificultad de la red para localizar puntos clave y mejora la precisión de la pose. Nuestro método logra mejoras significativas en múltiples puntos de referencia. Y esta red troncal de aprendizaje de representación RGBD se puede aplicar a tareas más visuales con RGBD como entrada conectando en cascada diferentes redes de predicción. Palabras clave: aprendizaje de representación RGBD, visión 3D, estimación de pose 6D PDF: https://arxiv.org/abs/2103.02242 código: https://github.com/ethnhe/FFB6D
La ciencia y la tecnología siempre van en espiral ascendente. Hemos "revivido" la arquitectura de red neuronal convolucional minimalista de un solo canal estilo VGG, con una convolución de 3x3 hasta el final. Ha alcanzado el nivel SOTA en velocidad y rendimiento, y tiene una tasa de precisión de más del 80%. ImagenNet.
Para superar la dificultad de entrenar la arquitectura de estilo VGG, utilizamos la reparametrización estructural para construir el mapeo de identidad y la rama de convolución 1x1 en el modelo durante el entrenamiento, y luego los fusionamos de manera equivalente en 3x3 después del entrenamiento, por lo que el modelo. solo contiene convolución 3x3 durante la inferencia. Esta arquitectura no tiene estructuras ramificadas, por lo que es muy paralela y muy rápida. Y como la parte principal solo tiene un operador, "3x3-ReLU", es particularmente adecuada para hardware personalizado. Palabras clave: reparametrización estructural, arquitectura minimalista, modelo eficiente https://arxiv.org/abs/2101.03697
Este artículo propone una nueva operación de convolución: convolución dinámica con reconocimiento de región (DRConv: convolución dinámica con reconocimiento de región), que puede asignar núcleos de convolución personalizados a diferentes áreas planas en función de la similitud de características. En comparación con las convoluciones tradicionales, este método de convolución mejora en gran medida la capacidad de modelado de la diversidad de información semántica de la imagen. Las capas convolucionales estándar pueden aumentar la cantidad de núcleos de convolución para extraer más elementos visuales, pero generarán costos computacionales más altos. DRConv utiliza un asignador que se puede aprender para transferir núcleos de convolución que aumentan gradualmente a dimensiones planas, lo que no solo mejora la capacidad de representación de la convolución, sino que también mantiene el costo computacional y la invariancia de traducción.
DRConv es un método eficaz y elegante para manejar la distribución compleja y variada de información semántica. Puede reemplazar las convoluciones estándar en cualquier red existente con sus características plug-and-play y tiene importantes mejoras de rendimiento para la promoción de redes livianas. Este documento evalúa DRConv en varios modelos (serie MobileNet, ShuffleNetV2, etc.) y tareas (clasificación, reconocimiento facial, detección y segmentación). En la clasificación ImageNet, ShuffleNetV2-0.5 × basado en DRConv alcanzó un nivel de 46 millones de cálculos y logró un rendimiento del 67,1%. , una mejora del 6,3% con respecto al valor de referencia. https://arxiv.org/abs/2003.12243
Proponemos un módulo básico de red convolucional (DBB) para enriquecer la microestructura del modelo durante el entrenamiento sin cambiar su macroestructura, mejorando así su rendimiento. Este módulo se puede convertir de manera equivalente en una convolución mediante la reparametrización estructural después del entrenamiento, sin introducir así ninguna sobrecarga de inferencia adicional. imagen
Hemos resumido seis estructuras que se pueden transformar de manera equivalente, incluida la convolución continua 1x1-KxK, la agrupación promedio, etc., y utilizamos estas seis transformaciones para generar una instancia DBB representativa similar a Inception, que se puede usar en varias arquitecturas. mejoras de rendimiento. Hemos confirmado mediante experimentos que la "no linealidad durante el entrenamiento" (pero lineal durante la inferencia, como BN) y los "vínculos diversos" (por ejemplo, 1x1+3x3 es mejor que 3x3+3x3) son las claves de la eficacia de DBB. . Palabras clave: reparametrización de la estructura, sin razonamientos generales, mejora indolora
La mayor parte del trabajo anterior se centró en el desempeño de muestras de clases pequeñas a expensas del desempeño de muestras de clases grandes. Este artículo propone un detector de objetivos de muestra de clase pequeña sin efecto de olvido, que puede lograr un mejor rendimiento de la categoría de muestra de clase pequeña sin perder el rendimiento de la categoría de muestra de clase grande. En este artículo, encontramos que los detectores previamente entrenados rara vez producen predicciones falsas positivas en clases invisibles, y también encontramos que RPN no es un componente independiente de clase ideal. Con base en estos dos hallazgos, diseñamos dos estructuras simples y efectivas, Redetector y RPN con equilibrio de polarización, que pueden lograr una detección de objetivos de muestra de clase pequeña sin olvidar el efecto agregando solo una pequeña cantidad de parámetros y tiempo de inferencia. Palabras clave: aprendizaje de pequeñas muestras, detección de objetivos.
Este artículo propone un marco unificado para manejar tareas de reconocimiento visual que contienen distribuciones de datos de cola larga. Primero realizamos un análisis experimental de los métodos de dos etapas existentes para abordar problemas de cola larga y descubrimos los principales obstáculos en el rendimiento de los métodos existentes. Basado en análisis experimentales, proponemos una estrategia de alineación de distribución para resolver sistemáticamente tareas de visión de cola larga.
El marco está diseñado en base a un método de dos etapas. En la primera etapa, se utiliza una estrategia de muestreo equilibrado de instancias para el aprendizaje de representación de características (aprendizaje de representación). En la segunda etapa, primero diseñamos una función de alineación consciente de la entrada para corregir la puntuación de los datos de entrada. Al mismo tiempo, para introducir a priori la distribución del conjunto de datos, diseñamos un esquema de reponderación generalizado para manejar varios escenarios de tareas visuales, como clasificación de imágenes, segmentación semántica, detección de objetos y segmentación de instancias. Verificamos nuestro método en cuatro tareas y logramos mejoras significativas en el rendimiento en cada tarea. Palabras clave: clasificación de imágenes, segmentación semántica, detección de objetos, segmentación de instancias.
Por primera vez, este artículo elimina el posprocesamiento NMS (supresión no máxima) en el detector de objetivos totalmente convolucional y logra un entrenamiento de un extremo a otro. Analizamos los métodos convencionales de detección de objetos de una etapa y descubrimos que la estrategia tradicional de asignación de etiquetas uno a muchos es la clave para estos métodos que dependen de NMS y, por lo tanto, propusimos una estrategia de asignación de etiquetas uno a uno con reconocimiento de predicción. Además, para mejorar el rendimiento de la asignación de etiquetas uno a uno, proponemos módulos que mejoran las capacidades de representación de características y funciones de pérdida auxiliares que aceleran la convergencia del modelo. Nuestro método logra un rendimiento comparable al de los métodos convencionales de detección de objetos de una etapa sin NMS. En escenas densas, la recuperación de nuestro método excede el límite superior teórico de los métodos de detección de objetos que dependen de NMS. Palabras clave: detección de un extremo a otro, asignación de etiquetas, red totalmente convolucional https://arxiv.org/abs/2012.03544
Proponemos una estrategia de coincidencia de muestras de detección de objetivos basada en la teoría de transmisión óptima, que utiliza información global para encontrar resultados óptimos de coincidencia de muestras. En comparación con la tecnología de coincidencia de muestras existente, tiene las siguientes ventajas: 1). Los resultados de coincidencia globalmente óptimos pueden ayudar a entrenar el detector de manera estable y eficiente y, en última instancia, lograr un rendimiento de detección óptimo en el conjunto de datos COCO. 2). Amplia gama de escenarios aplicables. Los algoritmos de detección de objetivos existentes deben rediseñar estrategias o ajustar parámetros cuando se encuentran con escenas complejas, como objetivos densos u oclusión severa, y el modelo de transmisión óptimo incluye el proceso de encontrar la solución óptima en el proceso de modelado global sin ningún ajuste adicional. Rendimiento de última generación en varias escenas con objetivos densos y oclusión severa, y tiene un gran potencial de aplicación. Palabras clave: detección de objetivos, transmisión óptima, estrategia de coincidencia de muestras
Dado que la asignación de etiquetas del detector de una etapa es estática y no considera la información global del marco del objeto, proponemos un detector de objetos basado en el muestreo de distribución de masa de objetos. En este artículo, proponemos el módulo de codificación de distribución de calidad QDE y el módulo de muestreo de distribución de calidad QDS. Al extraer las características regionales del marco objetivo y modelar la distribución de calidad del marco de predicción según el modelo de mezcla gaussiana, podemos seleccionar dinámicamente el. Valor positivo del marco de detección. Asignación de muestra negativa. Este método solo implica la asignación de etiquetas en la fase de capacitación y puede lograr los mejores resultados actuales en múltiples conjuntos de datos, como COCO. Palabras clave: asignación de etiquetas
El método FSCE propuesto en el artículo tiene como objetivo resolver el problema de la detección de objetos de muestras pequeñas desde la perspectiva de optimizar la representación de características. En las tareas de detección de objetos de muestras pequeñas, el número de muestras objetivo es limitado y la clasificación correcta de las muestras objetivo a menudo tiene un gran impacto en el rendimiento final. FSCE utiliza la idea de aprendizaje contrastivo para codificar marcos candidatos relevantes y optimizar su representación de características, fortaleciendo la compacidad intraclase y la repulsión de características entre clases. El método final se ha mejorado efectivamente en los conjuntos de datos comunes COCO y Pascal VOC. . Palabras clave: detección de objetivos de muestra pequeña, enlace del documento de aprendizaje comparativo: https://arxiv.org/abs/2103.05950
El algoritmo NAS convencional existente realiza la búsqueda de modelos a través del rendimiento de predicción de la subred en el conjunto de verificación. Sin embargo, bajo el mecanismo de intercambio de parámetros, existe una gran diferencia entre el rendimiento de predicción en el conjunto de verificación y el rendimiento real del modelo. Por primera vez, rompimos el paradigma de evaluación de modelos basado en el rendimiento de predicción, evaluamos las subredes desde la perspectiva de la velocidad de convergencia del modelo y planteamos la hipótesis de que cuanto más rápido converja el modelo, mayor será su rendimiento de predicción correspondiente.
Basándonos en el marco de convergencia del modelo, descubrimos que la convergencia del modelo no tiene nada que ver con las etiquetas reales de las imágenes y propusimos además un nuevo paradigma NAS: RLNAS, que utiliza etiquetas aleatorias para el entrenamiento de superredes. RLNAS se ha verificado en múltiples conjuntos de datos (NAS-Bench-201, ImageNet) y múltiples espacios de búsqueda (DARTS, tipo MobileNet). Los resultados experimentales muestran que RLNAS puede lograr el rendimiento de NAS existente utilizando solo estructuras buscadas para etiquetas aleatorias. Nivel SOTA. RLNAS parece contradictorio al principio, pero sus resultados inesperadamente buenos proporcionan una base más sólida para la comunidad NAS e inspiran aún más a pensar sobre la naturaleza de NAS. Palabras clave: búsqueda de arquitectura de red neuronal, supuesto de convergencia del modelo, etiqueta aleatoria https://arxiv.org/abs/2101.11834
Los algoritmos actuales de estimación de la pose humana utilizan la regresión del mapa de calor para obtener los puntos finales de las articulaciones. Estos métodos suelen utilizar un núcleo gaussiano 2D de desviación estándar fija que cubre todos los puntos clave del esqueleto para construir un mapa de calor verdadero y utilizan el mapa de calor verdadero para supervisar el modelo. Dado que los mapas de calor reales de los puntos conjuntos de diferentes personas se construyen utilizando el mismo núcleo gaussiano, este método no considera las diferencias de escala de diferentes personas, lo que provocará ambigüedad en las etiquetas y afectará el efecto del modelo.
Este artículo propone una regresión de mapa de calor adaptativa a escala que puede generar de forma adaptativa la desviación estándar requerida para construir etiquetas basadas en el tamaño del cuerpo humano, haciendo así que el modelo sea más robusto para cuerpos humanos de diferentes escalas y propone una regresión adaptativa al peso para; Equilibra muestras positivas y negativas y explora más a fondo el efecto de regresión del mapa de calor adaptable a escala. Este artículo finalmente logra el rendimiento más avanzado en la estimación de postura humana de abajo hacia arriba. Palabras clave: estimación de la pose humana, ascendente, regresión adaptativa del mapa de calor https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID propone un novedoso método de destilación basado en tareas de detección. Al extraer instancias generales (GI) de profesores y studnet respectivamente, se propone el módulo GISM para seleccionar de forma adaptativa instancias con grandes diferencias para la destilación basada en características, relaciones y respuestas. Este método aplica la destilación del conocimiento relacional al marco de detección por primera vez y unifica el objetivo de destilación desde la consideración independiente de la destilación de muestras positivas y negativas hasta una destilación GI más esencial. El proceso no depende de GT y alcanza SOTA. Palabras clave: detección de objetivos, destilación de conocimientos https://arxiv.org/abs/2103.02340
Proponemos una nueva función de activación ACON (activar o no), que puede aprender de forma adaptativa a activarse o no. ACON estableció la conexión entre ReLU y Swish: descubrimos que aunque las dos formas son muy diferentes, Swish es una forma suave de ReLU. Con base en este descubrimiento, propusimos más variantes, como meta-acon, que logró el doble de aumento gratuito en comparación con SENet. Verificamos el desempeño de generalización de esta función de activación concisa y efectiva en múltiples tareas. Palabras clave: función de activación, red neuronal https://arxiv.org/abs/2009.04759
En este artículo, analizamos primero el papel de FPN en el detector de una sola etapa RetinaNet. A través de experimentos, descubrimos que la idea de dividir y vencerás de asignar objetos de diferentes escalas a diferentes niveles de detección en FPN tiene una gran importancia. impacto en los resultados de la detección. Desde una perspectiva de optimización, esta idea descompone el problema de optimización en la detección, simplificando el aprendizaje de optimización y mejorando la precisión de la detección. Sin embargo, el diseño de FPN basado en funciones multinivel complica la estructura de red del método de detección, introduce cálculos adicionales y ralentiza la velocidad de detección. Para evitar los problemas anteriores, este artículo propone detectar objetos de todas las escalas en un solo nivel. Al mismo tiempo, para resolver el problema de la optimización difícil en la detección de características de un solo nivel, se utiliza una solución de codificador de orificios y coincidencia equilibrada. propuesto.
La precisión de detección del detector YOLOF basado en funciones de un solo nivel propuesto en este artículo es comparable a la de RetinaNet basado en FPN cuando solo se usan funciones C5, y la velocidad de detección es 2,5 veces mayor que la de RetinaNet. Además, en comparación con DETR, que también utiliza solo funciones C5, YOLOF puede lograr un rendimiento comparable con una convergencia más rápida (7x). Palabras clave: detección de objetivos en una sola etapa, funciones de escala única, equilibrio entre velocidad de detección y precisión https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
Mejorar el rendimiento del detector sin aumentar el coste del etiquetado es el objetivo de este estudio. Este artículo selecciona una pequeña cantidad de cuadros delimitadores y una gran cantidad de anotaciones de puntos para entrenar al detector. Se elige la anotación de puntos porque es rica en información: contiene la ubicación y la información de categoría de la instancia, y el costo de la anotación es bajo. Este artículo propone Point DETR extendiendo el codificador de puntos a DETR. El marco general es: entrenar Point DETR a través de datos de cuadros delimitadores; codificar anotaciones de puntos en consultas y predecir pseudocuadros para entrenar modelos de estudiantes a través de datos de cuadros delimitadores y pseudocuadros. En el conjunto de datos COCO, utilizando solo el 20 % de datos completamente anotados, nuestro detector alcanza 33,3 AP, superando la línea base en 2,0 AP. Palabras clave: detección de objetivos, semisupervisado, supervisión débil
Las lentes gran angular son amadas por su amplio campo de visión, pero sufren distorsión de la lente y de la perspectiva, que se manifiestan como líneas de fondo curvas, estiramiento, compresión e inclinación de caras, etc. Con este fin, este artículo construye una red de dedistorsión en cascada que consta de una red de corrección de líneas, una red de corrección de rostros y un módulo de transición, de modo que el fondo presenta una proyección en perspectiva y el área de la cara presenta una proyección estereoscópica, y las transiciones suaves entre las dos áreas, de modo que elimine diversas distorsiones manteniendo el FOV. Este método no requiere parámetros de la cámara, puede lograr un rendimiento en tiempo real y supera los métodos existentes en evaluaciones tanto cualitativas como cuantitativas. Palabras clave: corrección de distorsión de retrato de gran angular, red en cascada profunda
Proponemos un nuevo método de aprendizaje de flujo óptico no supervisado UPFlow. Descubrimos que el método actual de flujo óptico no supervisado tiene dos problemas en el procesamiento piramidal de múltiples escalas: el problema de la ambigüedad de interpolación en el proceso de muestreo ascendente de flujo y el problema de la falta de supervisión del flujo de múltiples escalas. En este sentido, proponemos un módulo de muestreo ascendente autoguiado que utiliza un flujo de interpolación y un mapa de interpolación para cambiar el mecanismo de interpolación de muestreo ascendente, logrando así un muestreo ascendente más refinado. Además, proponemos utilizar la salida final de la red como pseudoetiquetas para supervisar el aprendizaje del flujo multiescala. Con base en estas mejoras, nuestro método puede obtener resultados de flujo óptico más claros y nítidos. Realizamos experimentos en múltiples conjuntos de datos de referencia de flujo óptico, incluidos Sintel, KITTI 2012 y KITTI 2015. El rendimiento de UPFlow supera el mejor algoritmo de flujo óptico no supervisado actual en aproximadamente un 20 %. Palabras clave: estimación de flujo óptico, aprendizaje no supervisado https://arxiv.org/abs/2012.00212
NBNet es un marco que resuelve el problema de la reducción de ruido de la imagen. Abordamos este problema con una perspectiva novedosa: la proyección adaptativa de imágenes. Específicamente, aprendemos un conjunto de subespacios en el espacio de características, y la eliminación de ruido de la imagen se puede lograr seleccionando un subespacio de señal apropiado y proyectándolo en este subespacio. En comparación con la estructura de red de un solo volumen anterior, NBNet puede extraer y utilizar de forma natural y más eficiente información estructural en imágenes a través de proyección, especialmente áreas de textura débiles, para ayudarnos a restaurar imágenes. A través de un método tan simple, NBNet logró SOTA en los dos puntos de referencia de DND y SIDD con menos cálculo. Palabras clave: eliminación de ruido de imágenes, subespacio https://arxiv.org/abs/2012.15028
Este trabajo introduce el "rango dinámico", un atributo importante de las métricas, en el aprendizaje métrico profundo, lo que da como resultado una nueva tarea llamada "aprendizaje métrico dinámico". Descubrimos que las mediciones de profundidad anteriores en realidad solo contenían una escala, como por ejemplo distinguir solo si las caras y los peatones eran similares o diferentes. No importa cuán precisas sean estas herramientas de medición, son inflexibles y tienen usos limitados en el uso real. De hecho, nuestras herramientas de medición diarias suelen tener un rango dinámico. Por ejemplo, una regla siempre tiene múltiples escalas (como 1 mm, 1 cm o incluso 10 cm) para medir objetos de diferentes escalas. Creemos que ha llegado el momento de que el campo del aprendizaje métrico profundo introduzca el rango dinámico. Porque los propios conceptos visuales tienen diferentes tamaños: “animales” y “plantas” corresponden a escalas grandes, mientras que “alce” corresponde a escalas relativamente pequeñas. A pequeña escala, dos alces pueden parecer muy diferentes, pero a gran escala, los mismos dos alces deben considerarse muy similares.
Con este fin, proponemos esta tarea dinámica de aprendizaje de métricas, que requiere aprender un único espacio métrico que pueda proporcionar simultáneamente medidas de similitud para conceptos visuales de diferentes tamaños semánticos. Además, construimos tres conjuntos de datos de múltiples escalas y proponemos un método de referencia simple. Creemos que el rango dinámico se convertirá en una propiedad indispensable del aprendizaje métrico profundo y brindará nuevas perspectivas y nuevos escenarios de aplicación a todo el campo del aprendizaje métrico profundo.
Red integrada de geometría de anatomía gráfica 3D para segmentación de masa pancreática, diagnóstico y tratamiento cuantitativo de pacientes
Seguimiento de lesiones profundas: seguimiento de lesiones en estudios de imágenes longitudinales 4D https://arxiv.org/abs/2012.04872
Localización e identificación automática de vértebras en TC mediante rectificación de la columna y optimización anatómicamente restringida https://arxiv.org/abs/2012.07947
CNN 3D con resoluciones de funciones temporales adaptables https://arxiv.org/abs/2011.08652
KeepAugment: un aumento de datos simple que preserva la información https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: uso no intencionado de GAN de caja negra previamente entrenados https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: campos de radiación neuronal para escenas dinámicas https://arxiv.org/abs/2011.13961
Redes gruesas y finas para la detección de actividad temporal en vídeos
Localización de instancias para entrenamiento previo de detección autosupervisada https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Respuesta visual fundamentada a preguntas débilmente supervisadas mediante cápsulas
Segmentación LiDAR panóptica 4D https://arxiv.org/abs/2102.12472
Dogfight: detección de drones a partir de vídeos de drones
Aprendizaje activo de instancias múltiples para la detección de objetos https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Reconsideración de la alineación de la representación para la agrupación en clústeres de vistas múltiples
Predicción de varios pasos simultánea y autosupervisada de la dinámica de la carretera y el mapa de costos
Traducción de imagen a imagen mediante desenredo de estilo jerárquico Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: Representaciones de video independientes del flujo para interpolación rápida de fotogramas https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: Fusión multiescala de descriptores localmente globales para el reconocimiento de lugares Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
Profundidad del movimiento de la cámara y detección de objetos Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: Entrenamiento previo no supervisado para la detección de objetos con transformadores https://arxiv.org/pdf/2011.09094.pdf
Restauración de imágenes progresiva en varias etapas https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Aprendizaje débilmente supervisado de flujo de escena 3D rígido https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Explorando las fortalezas complementarias de las representaciones invariantes y equivariantes para el aprendizaje con pocas posibilidades Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
Reetiquetado de ImageNet: de etiquetas únicas a múltiples, de etiquetas globales a localizadas https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Repensar las dimensiones del canal para un diseño de modelo eficiente https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Redes gruesas y finas para la detección de actividad temporal en vídeos Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
Un emulador profundo para el movimiento secundario de personajes 3D Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
Clasificación justa de atributos mediante la eliminación del sesgo del espacio latente https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
Fusión de exposición automática para eliminar sombras de una sola imagen Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Menos es más: CLIPBERT para el aprendizaje de idiomas y vídeos mediante muestreo disperso https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: reconstrucción escalable y adaptativa para detección de compresión por vídeo Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: mejora de la búsqueda de arquitectura neuronal mediante Attentive https://arxiv.org/pdf/2011.09011.pdf
Modelos probabilísticos de difusión para la generación de nubes de puntos 3D Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
Hay más de lo que parece: detección y seguimiento autosupervisados de múltiples objetos con sonido mediante la destilación del conocimiento multimodal Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
Codificación con estilo: un codificador StyleGAN para traducción de imagen a imagen https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Aprendizaje de políticas basado en objetivos jerárquico y parcialmente observable con gráfico relacional de objetivos Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: Hacer que las ConvNets estilo VGG vuelvan a ser geniales https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Interpretabilidad del transformador más allá de la visualización de la atención https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: Registro de nubes de puntos 3D con baja superposición https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Destilación de conocimientos multiresolución para la detección de anomalías https://arxiv.org/abs/2011.11108
Purificación de datos positivos sin etiquetar en la naturaleza para la detección de objetos
Destilación de conocimientos sin datos para imágenes de superresolución
Poda de red dinámica regularizada múltiple
Transformador de procesamiento de imágenes previamente entrenado https://arxiv.org/pdf/2012.00364.pdf
ReNAS: Evaluación relativista de la arquitectura neuronal Buscar https://arxiv.org/pdf/1910.01523.pdf
AdderSR: hacia una superresolución de imágenes con eficiencia energética https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Redes de estudiantes de aprendizaje en la naturaleza https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: búsqueda de arquitectura neuronal extremadamente rápida a través de una lente de reloj de arena https://arxiv.org/pdf/2005.14446.pdf
Incrustaciones probabilísticas para la recuperación intermodal https://arxiv.org/abs/2101.05068
PLOP: Aprender sin olvidar para una segmentación semántica continua https://arxiv.org/abs/2011.11390
Memoria Arcoiris: Aprendizaje continuo con una memoria de muestras diversas
Explotación de las dimensiones espaciales de latente en GAN para la edición de imágenes en tiempo real
1.GhostNet: Más funciones de Cheap Operations (arquitectura más allá de Mobilenet v3) Enlace del documento: https://arxiv.org/pdf/1911.11907arxiv.org Modelo (rendimiento increíble en CPU ARM): https://github com/iamhankai. /ghostnetgithub.com
Superamos a otras CNN ligeras de SOTA, como MobileNetV3 y FBNet.
ADDERNET: ¿Realmente necesitamos multiplicaciones en el aprendizaje profundo?
Dominio de frecuencia Compacto Networks neural convolucional 3D (compresión 3DCNN) Enlace en papel: https://arxiv.org/pdf/1909.04977arxiv.org Código de código abierto: https://github.com/huawei-noah/carsgithub.com
Un asesor semi-supervisado de arquitecturas neuronales (predictor de precisión de la red neuronal NAS)
Detector de éxito: búsqueda de arquitectura de trinidad jerárquica para la búsqueda de detección de objetos (detección de NAS) Backbone-twek-Head Search, Trinity
CARS: la evolución continua para la búsqueda eficiente de arquitectura neuronal (NAS) es eficiente, tiene múltiples ventajas de diferenciabilidad y evolución, y puede generar la investigación del frente de Pareto
Sobre la clasificación positiva no marcada en GaN (PU+Gan)
Learning Multiview 3D Point Cloud Registration (3D Point Cloud) Enlace en papel: arxiv.org/abs/2001.05119
Adaptación de dominio multimodal para un enlace de documento de reconocimiento de acción de grano fino: arxiv.org/abs/2001.09691
Modificadores de acción: aprendizaje de los adverbios en el enlace de papel de video instructivo: arxiv.org/abs/1912.06617
POLARMASK: segmentación de instancia de disparo único con representación polar (modelado de segmentación de instancias) Enlace en papel: arxiv.org/abs/1909.13226 Interpretación en papel: https://zhuanlan.zhihu.com/p/84890413 Código de código abierto: https: // github. com/xieenze/polarmask
Repensar la estimación de rendimiento en la búsqueda de arquitectura neuronal (NAS) Dado que la parte real de la búsqueda de arquitectura neuronal sabia es la parte de estimación de rendimiento, este artículo encuentra los parámetros óptimos para el NAS sabio de bloque, que es más rápido y más relevante.
Distribución consciente de la representación de coordenadas para la estimación de la pose humana Enlace del documento: arxiv.org/abs/1910.06278 github: https://github.com/ilovepose/Darkpose Author Team Página de inicio: https://ilovepose.github.io/ coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. Genere un gráfico de escena imparcial a partir de entrenamiento sesgado
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184