連結: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA 提取碼: vwkx
update:2022/03/02 更新部分文章解讀
MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation
Paper: https://arxiv.org/pdf/2111.12707.pdf
Code: https://github.com/Vegetebird/MHFormer
本文旨在使用全卷積形式統一地表達和預測物體和周邊環境,從而實現準確高效的全景分割。具體來說,本文提出卷積核生成器將每個物體和每類環境的語義資訊編碼至不同的捲結核中,並同高分辨率的特徵圖卷積直接輸出每個前景和背景的分割結果。透過這種方法,物體和環境的個體差異和語義一致性可以分別保留下來。此方法在多個全景分割資料集上均取得速度和精確度的目前最佳結果。 關鍵字:統一表達,動態卷積,全景分割arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
oral論文
FFB6D提出一個網路全流雙向融合的RGBD表徵學習架構並應用於6D位姿估計問題。我們發現現有的表徵學習方法都沒能很好地利用RGB中的外觀資訊和深度圖(點雲)中的幾何資訊這兩種互補的資料來源。
對此,我們設計了雙向稠密融合模組並應用到CNN和點雲網路的每個編碼和解碼層。這種全流雙向融合機制能讓兩個網絡充分利用彼此提取的局部和全局互補訊息,從而獲得更好的表徵用於下游預測任務。此外,在輸出表徵選擇上,我們結合物品的紋理和幾何資訊設計了一種SIFT-FPS關鍵點選擇演算法,簡化了網路定位關鍵點的難度並提升了位姿精度。我們的方法在多個基準上都獲得顯著的提升。而這種RGBD表徵學習骨幹網絡能透過級聯不同的預測網絡,應用在更多以RGBD為輸入的視覺任務。 關鍵字:RGBD表徵學習,3D視覺,6D位姿估計PDF: https://arxiv.org/abs/2103.02242 code: https://github.com/ethnhe/FFB6D
科學技術總是螺旋式地上升。我們「復興」了VGG式單路極簡卷積神經網路架構,一路3x3捲到底,在速度和性能上達到SOTA水平,在ImageNet上超過80%正確率。
為了克服VGG式架構訓練困難的問題,我們使用結構重參數化(structural re-parameterization)在訓練時的模型中構造恆等映射和1x1卷積分支,然後在訓練結束後將其等效融合進3x3卷積中去,因而推理時模型僅包含3x3卷積。這項架構沒有任何分支結構,因此其平行度很高,速度很快。且由於主體部分僅有「3x3-ReLU」這一種算子,特別適合用於自訂硬體。 關鍵字:結構重參數化,極簡架構,高效模型https://arxiv.org/abs/2101.03697
本文提出一個新的捲積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特徵相似度為不同平面區域分配定制的捲積核。這種卷積方式相較於傳統卷積極地增強了對影像語意資訊多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。 DRConv使用可學習的分配器將逐漸增加的捲積核轉移到平面維度,不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。
DRConv是一種用於處理語意資訊分佈複雜多變的有效且優雅的方法,它可以以其即插即用特性取代任何現有網路中的標準卷積,且對於輕量級網路的效能有顯著提升。本文在各種模型(MobileNet系列,ShuffleNetV2等)和任務(分類,面部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基於DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。 https://arxiv.org/abs/2003.12243
我們提出一個卷積網路基本模組(DBB),用以豐富模型訓練時的微觀結構而不改變其宏觀架構,以此提升其效能。這種模組可以在訓練後透過結構重參數化(structural re-parameterization)等效轉換為一個卷積,因而不引入任何額外的推理開銷。圖片
我們歸納了六種可以此種等效轉換的結構,包括1x1-KxK連續卷積、average pooling等,並用這六種變換給出了一種代表性的形似Inception的DBB實例,在多種架構上均取得了顯著的性能提升。我們透過實驗確認了「訓練時非線性」(而推理時是線性的,如BN)和「多樣的連結」(例如1x1+3x3效果優於3x3+3x3)是DBB有效的關鍵。 關鍵字:結構重參數化,無推理開銷,無痛提升
過去的工作大都聚焦在小類樣本類別表現而犧牲了大類樣本的表現。本文提出一種無遺忘效應的小類樣本目標偵測器,能夠在實現更好的小類樣本類別效能的同時,不掉落大類樣本類別的效能。在本文中,我們發現了預先訓練的偵測器很少在未見過的類別上產生假陽性預測,也發現RPN並非理想的類別無關組件。基於這兩點發現,我們設計了Re-detector和Bias-Balanced RPN兩個簡單而有效的結構,只增加少量參數和推斷時間即可實現無遺忘效應的小類樣本目標檢測。 關鍵字:小樣本學習,目標偵測
本文提出了一個處理含有長尾資料分佈的視覺辨識任務的統一框架。我們首先針對現有的處理長尾問題的兩階段的方法進行了實驗分析,找出現有方法主要的效能瓶頸。基於實驗分析,我們提出了一種分佈對齊策略來系統性解決長尾視覺任務。
此框架基於兩階段方法設計,在第一階段,使用instance-balanced 採樣策略進行特徵表示學習(representation learning)。在第二階段,我們首先設計了一個input-aware的對齊函數,以實現對輸入資料的得分進行矯正。同時,為了引入資料集分佈的先驗,我們設計了一個泛化重加權(Generalized Re-weight)方案, 來處理影像分類,語義分割,物體偵測和實例分割等多種視覺任務場景。我們在四個任務上驗證了我們的方法,在各個任務上都取得了明顯的效能提升。 關鍵字:影像分類,語意分割,物件偵測,實例分割
本文首次在全卷積目標偵測器上移除了NMS(非極大值抑制)後處理,做到了端到端訓練。我們分析了主流一階段目標偵測方法,並發現傳統的一對多標籤分配策略是這些方法依賴NMS的關鍵,並由此提出了預測感知的一對一標籤分配策略。此外,為了提升一對一標籤分配的效能,我們提出了增強特徵表徵能力的模組,和加速模型收斂的輔助損失函數。我們的方法在無NMS的情況下達到了與主流一階段目標偵測方法相當的效能。在密集情境上,我們的方法的回想率超過了依賴NMS的目標偵測方法的理論上限。 關鍵字:端對端偵測,標籤分配,全卷積網路https://arxiv.org/abs/2012.03544
我們提出了一種基於最優傳輸理論的目標檢測樣本匹配策略,利用全局資訊來尋找最優樣本匹配的結果,相對於現有的樣本匹配技術,具有以下優勢:1). 檢測精度高。全域最優的配對結果能幫助偵測器以穩定且有效率的方式訓練,最終在COCO資料集上達到最優偵測效能。 2). 適用場景廣。現有的目標偵測演算法在遇到目標密集或被嚴重遮蔽等複雜場景時,需要重新設計策略或調整參數,而最優傳輸模型在全域建模的過程中包含了尋找最優解的過程,不用做任何額外的調整,在各種目標密集、遮擋嚴重的場景下也能達到最先進的效能,具有很大的應用潛力。 關鍵字:目標偵測、最優傳輸、樣本匹配策略
由於一階段偵測器的標籤分配有靜態、沒有考慮目標框的全域資訊等不足,我們提出了一個基於目標品質分佈採樣的目標偵測器。在本文中,我們提出質量分佈編碼模組QDE和質量分佈採樣模組QDS,透過提取目標框的區域特徵,並基於高斯混合模型來對預測框的質量分佈進行建模,來動態的選擇檢測框的正負樣本分配。本方法只涉及訓練階段標籤分配,就可以在COCO等多個資料集上實現當前最佳結果。 關鍵字:標籤分配
論文提出的FSCE方法旨在從最佳化特徵表示的角度去解決小樣本物體偵測問題。小樣本物體偵測任務中受限於目標樣本的數目稀少,對目標樣本的分類正確與否往往對最終的表現有很大的影響。 FSCE借助對比學習的想法對相關候選框進行編碼優化其特徵表示,加強特徵的類內緊湊和類間相斥,最後方法在常見的COCO和Pascal VOC數據集上都得到有效提升。 關鍵字:小樣本目標偵測,比較學習論文連結:https://arxiv.org/abs/2103.05950
現有的主流NAS演算法透過子網路在驗證集上的預測性能來進行模型搜索,但是在參數共享機制下,驗證集上的預測性能和模型真實性能存在較大的差異。我們首次打破了這種基於預測性能進行模型評估的範式,從模型收斂速度的角度來進行子網絡評估並假設:模型收斂速度越快,其對應的預測性能越高。
基於模型收斂性框架,我們發現模型收斂性與影像真實標籤無關,便進一步提出使用隨機標籤進行超網路訓練的新NAS範式-RLNAS。 RLNAS在多個資料集(NAS-Bench-201,ImageNet)以及多個搜尋空間(DARTS,MobileNet-like)進行了驗證,實驗結果顯示RLNAS僅使用隨機標籤搜尋出來的結構便能達到現有的NAS SOTA的水平。 RLNAS初聽比較反直覺,但其出乎意料的好結果為NAS社群提出了一組更強的基線,同時也進一步啟發了對NAS本質的思考。 關鍵字:神經網路架構搜索,模型收斂性假設,隨機標籤https://arxiv.org/abs/2101.11834
目前人體姿態估計算法都是使用的熱力學圖回歸來得到最後的關節點。這些方法通常使用固定標準差的二維高斯核來覆蓋所有骨架關鍵點來建構真實熱力圖,並使用真實熱力圖來監督模型。由於不同人的關節點的真實熱力學圖都是使用同一高斯核來構造,所以這個方法沒有考慮不同人的尺度區別,會造成標籤的歧義性,影響模型效果。
本論文提出了一種尺度自適應熱力學圖回歸,可以根據人體大小自適應生成構造標籤所需的標準差,從而使得模型對不同尺度的人體更加穩健;並提出權重自適應回歸平衡正負樣本,進一步挖掘尺度自適應熱力圖回歸效果。本論文最終在自底向上人體姿態估計中取得了目前最先進性能。 關鍵字:人體姿勢估計、自底向上、自適應熱力圖迴歸https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID提出了一種基於檢測任務的新型蒸餾方法。透過從teacher和studnet中分別提取general instance (GI),並提出GISM模組自適應選擇差異大的instance進行feature-based、relation-based以及response-based蒸餾。本方法首次將關係型知識蒸餾應用於檢測框架,且將蒸餾目標從獨立考慮的正負樣本蒸餾統一為更本質GI蒸餾,過程中不依賴GT,且達到SOTA。 關鍵字:目標偵測,知識蒸餾https://arxiv.org/abs/2103.02340
我們提出一種新的激活函數ACON (activate or not),可以自適應地學習激活與否。 ACON建立了ReLU和Swish的連結:我們發現雖然兩者形式很不一樣,但Swish是ReLU的一種平滑形式。基於這個發現,我們進而提出更多變體,如meta-acon,相較於SENet取得了兩倍的無cost漲點。我們在多個任務上驗證了這個簡潔有效的激活函數的泛化表現。 關鍵字:活化函數、神經網路https://arxiv.org/abs/2009.04759
在本文中,我們首先分析了FPN在單階段檢測器RetinaNet中的作用,透過實驗發現FPN中將不同尺度的物體分配到不同層級檢測的分治思想對檢測結果影響很大。從最佳化角度來說,該想法將檢測中的最佳化問題分解,使得最佳化學習變得更為簡單,提高了檢測精確度。然而,FPN基於多層級特徵的設計使得檢測方法的網路結構變得複雜、引入了額外的計算量、並且拖慢了檢測的速度。為了避免上述幾個問題,本文提出在單層級上對所有尺度的物體進行檢測;同時,針對單層級特徵檢測中難以優化的問題,提出了空洞編碼器與均衡匹配的解決方案。
本文提出的基於單層級特徵的偵測器YOLOF,在只使用C5特徵的情況下,其偵測精確度也能與基於FPN的RetinaNet相當,同時偵測速度是RetinaNet的2.5倍。另外,與同樣只使用C5特徵的DETR相比,YOLOF能在收斂速度更快的情況下(7x)達到與之相當的表現。 關鍵字:單階段目標偵測、單尺度特徵、偵測速度與精確度平衡https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
在不增加標註成本的條件下,提升偵測器的效能,是本文研究的目標。本文選擇少量邊界框輔以大量點標註的方式訓練偵測器。選擇點標註是因其資訊豐富:包含實例的位置和類別信息,同時標註成本低。本文透過將點編碼器擴展至DETR的方式,提出Point DETR,整體框架為:透過邊界框數據訓練Point DETR;將點標註編碼為查詢,預測偽框;透過邊界框和偽框數據,訓練學生模型。在COCO數據集上,僅使用20%完全標註的數據,我們的檢測器可達33.3AP,超過基線2.0AP。 關鍵字:目標偵測,半監督,弱監督
廣角鏡頭因其廣闊的視野而備受喜愛,但存在鏡頭畸變和透視失真問題,表現為背景線條彎曲、人臉拉伸擠壓傾斜等。為此,本文建構了一個由線校正網絡,人臉校正網絡和過渡模組組成的級聯去畸變網絡,使得背景呈現透視投影而人臉區域呈現立體投影,並且在兩個區域平滑過渡,從而在保持FOV的同時消除各種畸變。本方法不需要相機參數,可達到即時,定性和定量評估均超越了現有方法。 關鍵字:廣角人像畸變校正,深度級聯網絡
我們提出了一種新的無監督光流學習方法UPFlow。我們發現目前的無監督光流方法在多尺度金字塔處理有兩個問題:flow上取樣過程中存在插值模糊的問題和多尺度flow缺乏監督的問題。對此,我們提出來一種自引導的上採樣模組,利用了一個插值flow和一個插值map來改變上採樣插值的機制,從而實現了更精細的上採樣。另外,我們提出來將網路的最終輸出結果當作偽標籤來監督多尺度flow的學習。基於這些改進,我們的方法能夠得到更清晰、銳利的光流結果。我們在多個光流基準資料集上進行了實驗,包括Sintel、KITTI 2012和KITTI 2015。 UPFlow的效能比目前最好的無監督光流演算法超出了約20%。 關鍵字:光流估計、無監督學習https://arxiv.org/abs/2012.00212
NBNet是一種解決影像降噪問題的框架。我們以一種新穎的觀點來解決這個問題:影像自適應的投影。具體來說,我們學習一組特徵空間上的子空間,影像降噪可以透過選擇合適的訊號子空間並在該子空間上投影來完成。相較於以往一捲到底的網絡結構,NBNet透過投影,能自然且更有效率地提取和利用影像中的結構信息,特別是弱紋理區域,以此來幫助我們復原影像。透過這樣簡單的方式,NBNet以更少的運算量在DND和SIDD兩個benchmark上拿到了SOTA。 關鍵字:影像降噪,子空間https://arxiv.org/abs/2012.15028
這項工作將度量學中一個重要的屬性「動態範圍」引入深度度量學習,從而得到一個新的任務叫做「動態度量學習」。我們發現,以往的深度測量其實只蘊含一個刻度,例如只區分人臉、行人是相似還是不相似。這樣的量具無論多精確,在實際使用上都是靈活不足、用途有限的。實際上,我們日常的量具通常具有動態範圍,例如尺子總是有多個刻度(例如1mm、1cm甚至10cm)來測量不同尺度的物體。我們認為,深度度量學習領域已經到了需要引入動態範圍的時候了。因為,視覺概念本身就有不同的大小,「動物」、「植物」都對應大尺度,而「麋鹿」卻對應相對較小的尺度。在小尺度下,兩隻麋鹿可能看起來很不一樣,但是在另一個大尺度下,同樣兩隻麋鹿卻應該被認為非常相似。
為此,我們提出了這個動態度量學習任務,它要求學到一個單獨的度量空間,能夠同時為語意大小不同的視覺概念提供相似性度量。此外,我們也建構了三個多尺度資料集,並提出了一個簡單的基準方法。我們相信,動態範圍將成為深度度量學習不可或缺的屬性,並為深度測量學習整個領域帶來新的視角和新的應用場景。
3D Graph Anatomy Geometry-Integrated Network for Pancreatic Mass Segmentation, Diagnosis, and Quantitative Patient Management
Deep Lesion Tracker: Monitoring Lesions in 4D Longitudinal Imaging Studies https://arxiv.org/abs/2012.04872
Automatic Vertebra Localization and Identification in CT by Spine Rectification and Anatomically-constrained Optimization https://arxiv.org/abs/2012.07947
3D CNNs with Adaptive Temporal Feature Resolutions https://arxiv.org/abs/2011.08652
KeepAugment: A Simple Information-Preserving Data Augmentation https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: Unintended-Use of Pretrained, Black-Box GANs https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: Neural Radiance Fields for Dynamic Scenes https://arxiv.org/abs/2011.13961
Coarse-Fine Networks for Temporal Activity Detection in Videos
Instance Localization for Self-supervised Detection Pretraining https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Weakly-supervised Grounded Visual Question Answering using Capsules
4D Panoptic LiDAR Segmentation https://arxiv.org/abs/2102.12472
Dogfight: Detecting Drones 來自 Drone Videos
Multiple Instance Active Learning for Object Detection https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Reconsidering Representation Alignment for Multi-view Clustering
Self-supervised Simultaneous Multi-Step Prediction of Road Dynamics and Cost Map
重要內容/github.com/imlixinyang/HiSD
FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
Depth from Camera Motion and Object Detection Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: Unsupervised Pre-training for Object Detection with Transformers https://arxiv.org/pdf/2011.09094.pdf
Multi-Stage Progressive Image Restoration https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Weakly Supervised Learning of Rigid 3D Scene Flow https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Exploring Complementary Strengths of Invariant and Equivariant Representations for Few-Shot Learning Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Rethinking Channel Dimensions for Efficient Model Design https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Coarse-Fine Networks for Temporal Activity Detection in Videos Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
A Deep Emulator for Secondary Motion of 3D Characters Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
Fair Attribute Classification through Latent Space De-biasing https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debia/
Auto-Exposure Fusion for Single-Image Shadow Removal Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: Scalable and Adaptive Reconstruction for Video Compressive Sensing Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: Improving Neural Architecture Search via Attentive https://arxiv.org/pdf/2011.09011.pdf
Diffusion Probabilistic Models for 3D Point Cloud Generation Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Hierarchical and Partially Observable Goal-driven Policy Learning with Goals Relational Graph Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: Making VGG-style ConvNets Great Again https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Transformer Interpretability Beyond Attention Visualization https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: Registration of 3D Point Clouds with Low Overlap https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Multiresolution Knowledge Distillation for Anomaly Detection https://arxiv.org/abs/2011.11108
Positive-Unlabeled Data Purification in the Wild for Object Detection
Data-Free Knowledge Distillation For Image Super-Resolution
Manifold Regularized Dynamic Network Pruning
Pre-Trained Image Processing Transformer https://arxiv.org/pdf/2012.00364.pdf
ReNAS: Relativistic Evaluation of Neural Architecture Search https://arxiv.org/pdf/1910.01523.pdf
AdderSR: Towards Energy Efficient Image Super-Resolution https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Learning Student Networks in the Wild https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: Extremely Fast Neural Architecture Search Through an Hourglass Lens https://arxiv.org/pdf/2005.14446.pdf
Probabilistic Embeddings for Cross-Modal Retrieval https://arxiv.org/abs/2101.05068
PLOP: Learning without Forgetting for Continual Semantic Segmentation https://arxiv.org/abs/2011.11390
Rainbow Memory: Continual Learning with a Memory of Diverse Samples
Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing
1.GhostNet: More Features from Cheap Operations(超越Mobilenet v3的架構) 論文連結:https://arxiv.org/pdf/1911.11907arxiv.org 模型(在ARM CPU上的表現驚人):https://github. com/iamhankai/ghostnetgithub.com
We beat other SOTA lightweight CNNs such as MobileNetV3 and FBNet.
AdderNet: Do We Really Need Multiplications in Deep Learning? (加法神經網路) 在大規模神經網路和資料集上取得了非常好的表現論文連結:https://arxiv.org/pdf/1912.13200arxiv.org
Frequency Domain Compact 3D Convolutional Neural Networks (3dCNN壓縮) 論文連結:https://arxiv.org/pdf/1909.04977arxiv.org 開源程式碼:https://github.com/huawei-noah/CARSgithub.com
A Semi-Supervised Assessor of Neural Architectures (神經網路精確度預測器NAS)
Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection (NAS 檢測) backbone-neck-head一起搜索, 三位一體
CARS: Contunuous Evolution for Efficient Neural Architecture Search (連續進化的NAS) 高效,具備可微和進化的多重優勢,且能輸出帕累托前研
On Positive-Unlabeled Classification in GAN (PU+GAN)
Learning multiview 3D point cloud registration(3D點雲) 論文連結:arxiv.org/abs/2001.05119
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition(細粒度動作辨識) 論文連結:arxiv.org/abs/2001.09691
Action Modifiers:Learning from Adverbs in Instructional Video 論文連結:arxiv.org/abs/1912.06617
PolarMask: Single Shot Instance Segmentation with Polar Representation(實例分割建模) 論文連結:arxiv.org/abs/1909.13226 論文解讀:https://zhuanlan.zhihu.com/p/84890413 開源程式碼:https://github. com/xieenze/PolarMask
Rethinking Performance Estimation in Neural Architecture Search(NAS) 由於block wise neural architecture search中真正消耗時間的是performance estimation部分,本文針對block wise的NAS找到了最優參數,速度更快,且相關度更高。
Distribution Aware Coordinate Representation for Human Pose Estimation(人體姿態估計) 論文連結:arxiv.org/abs/1910.06278 Github:https://github.com/ilovepose/DarkPose 作者團隊首頁:https://ilovepose.github.io/ coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6.從有偏訓練產生無偏場景圖
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184