링크: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA 추출 코드: vwkx
업데이트: 2022/03/02 일부 기사 해석 업데이트
MHFormer: 3D 인간 자세 추정을 위한 다중 가설 변환기
논문: https://arxiv.org/pdf/2111.12707.pdf
코드: https://github.com/Vegetebird/MHFormer
본 논문에서는 완전 컨벌루션 형태를 사용하여 객체와 주변 환경을 균일하게 표현하고 예측함으로써 정확하고 효율적인 파노라마 분할을 달성하는 것을 목표로 합니다. 구체적으로 본 논문에서는 각 객체와 각 환경 유형의 의미 정보를 서로 다른 컨볼루션 커널로 인코딩하고 이를 고해상도 특징 맵과 컨볼루션하여 각 전경과 배경의 분할 결과를 직접 출력하는 컨볼루션 커널 생성기를 제안합니다. 이러한 접근 방식을 통해 개체와 환경의 개인차와 의미적 일관성이 각각 보존될 수 있습니다. 이 방법은 여러 파노라마 분할 데이터 세트에서 속도와 정확성 측면에서 최첨단 결과를 달성합니다. 키워드: 통합 표현, 동적 컨볼루션, Panoptic 분할 arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
구두 종이
FFB6D는 네트워크 전체 흐름 양방향 융합 RGBD 표현 학습 프레임워크를 제안하고 이를 6D 포즈 추정 문제에 적용합니다. 우리는 기존의 표현 학습 방법이 RGB의 모양 정보와 깊이 맵(포인트 클라우드)의 기하학적 정보라는 두 가지 보완적인 데이터 소스를 잘 활용하지 못한다는 것을 발견했습니다.
이를 위해 양방향 밀집 융합 모듈을 설계하고 이를 CNN과 포인트 클라우드 네트워크의 각 인코딩 및 디코딩 레이어에 적용합니다. 이 전체 흐름 양방향 융합 메커니즘을 통해 두 네트워크는 서로 추출된 로컬 및 글로벌 보완 정보를 최대한 활용할 수 있으므로 다운스트림 예측 작업에 대한 더 나은 표현을 얻을 수 있습니다. 또한 출력 표현 선택 측면에서 항목의 질감과 기하학적 정보를 기반으로 SIFT-FPS 핵심 포인트 선택 알고리즘을 설계하여 네트워크에서 핵심 포인트를 찾는 어려움을 단순화하고 포즈 정확도를 향상시켰습니다. 우리의 방법은 여러 벤치마크에서 상당한 개선을 달성했습니다. 그리고 이 RGBD 표현 학습 백본 네트워크는 다양한 예측 네트워크를 계단식으로 연결하여 RGBD를 입력으로 사용하여 더 많은 시각적 작업에 적용될 수 있습니다. 키워드: RGBD 표현 학습, 3D 비전, 6D 포즈 추정 PDF: https://arxiv.org/abs/2103.02242 코드: https://github.com/ethnhe/FFB6D
과학과 기술은 항상 나선형으로 상승합니다. 우리는 VGG 스타일의 단일 채널 미니멀리스트 컨볼루션 신경망 아키텍처를 끝까지 3x3 컨볼루션으로 "부활"시켰으며 속도와 성능면에서 SOTA 수준에 도달했으며 정확도는 80% 이상입니다. ImageNet.
VGG 스타일 아키텍처 훈련의 어려움을 극복하기 위해 구조적 재매개변수화를 사용하여 훈련 중에 모델에 ID 매핑과 1x1 컨볼루션 분기를 구성한 다음 훈련 후에 이를 3x3 컨볼루션으로 동일하게 병합하여 모델을 만듭니다. 추론 중에는 3x3 컨볼루션만 포함됩니다. 이 아키텍처에는 분기 구조가 없으므로 병렬성이 높고 매우 빠릅니다. 그리고 주요 부분에는 "3x3-ReLU"라는 연산자가 하나만 있기 때문에 맞춤형 하드웨어에 특히 적합합니다. 키워드: 구조적 재매개변수화, 미니멀리스트 아키텍처, 효율적인 모델 https://arxiv.org/abs/2101.03697
이 기사에서는 기능 유사성을 기반으로 맞춤형 컨볼루션 커널을 서로 다른 평면 영역에 할당할 수 있는 새로운 컨볼루션 작업인 동적 영역 인식 컨볼루션(DRConv: Dynamic Region-Aware Convolution)을 제안합니다. 전통적인 컨볼루션과 비교하여 이 컨볼루션 방법은 이미지 의미 정보의 다양성에 대한 모델링 능력을 크게 향상시킵니다. 표준 컨볼루션 레이어는 더 많은 시각적 요소를 추출하기 위해 컨볼루션 커널 수를 늘릴 수 있지만 계산 비용이 더 높아집니다. DRConv는 학습 가능한 할당자를 사용하여 점진적으로 증가하는 컨볼루션 커널을 평면 차원으로 전송합니다. 이는 컨볼루션의 표현 능력을 향상시킬 뿐만 아니라 계산 비용과 변환 불변성을 유지합니다.
DRConv는 복잡하고 다양한 의미 정보 분포를 처리하는 효과적이고 우아한 방법입니다. 플러그 앤 플레이 특성으로 기존 네트워크의 표준 컨볼루션을 대체할 수 있으며 경량 네트워크 승격에 대한 성능이 크게 향상됩니다. 본 논문에서는 다양한 모델(MobileNet 시리즈, ShuffleNetV2 등)과 작업(분류, 얼굴 인식, 탐지 및 분할)에 대한 DRConv를 평가합니다. ImageNet 분류에서는 DRConv 기반 ShuffleNetV2-0.5×를 46M 계산 수준에서 67.1%의 성능을 달성합니다. , 기준선에 비해 6.3% 개선되었습니다. https://arxiv.org/abs/2003.12243
우리는 학습 중에 매크로 구조를 변경하지 않고 모델의 미세 구조를 풍부하게 하여 성능을 향상시키는 컨볼루셔널 네트워크 기본 모듈(DBB)을 제안합니다. 이 모듈은 훈련 후 구조적 재매개변수화를 통해 컨볼루션으로 동일하게 변환될 수 있으므로 추가적인 추론 오버헤드가 발생하지 않습니다. 그림
우리는 1x1-KxK 연속 콘볼루션, 평균 풀링 등 등가 변환이 가능한 6가지 구조를 요약했으며, 이 6가지 변환을 사용하여 다양한 아키텍처에서 사용할 수 있는 Inception과 유사한 대표적인 DBB 인스턴스를 제공했습니다. 성능 개선. 우리는 "훈련 중 비선형성"(그러나 BN과 같은 추론 중에는 선형)과 "다양한 링크"(예: 1x1+3x3이 3x3+3x3보다 우수함)가 DBB 효율성의 핵심임을 실험을 통해 확인했습니다. . 키워드: 구조 재매개변수화, 추론 오버헤드 없음, 고통 없는 개선
과거 연구의 대부분은 대규모 클래스 샘플의 성능을 희생하면서 소규모 클래스 샘플의 성능에 중점을 두었습니다. 본 논문에서는 대규모 표본 범주의 성능을 잃지 않으면서 더 나은 소규모 표본 범주 성능을 달성할 수 있는 망각 효과가 없는 소규모 표본 표적 검출기를 제안합니다. 이 논문에서는 사전 훈련된 탐지기가 보이지 않는 클래스에 대해 거짓 긍정 예측을 거의 생성하지 않으며 RPN이 이상적인 클래스 독립적 구성 요소가 아니라는 사실도 발견했습니다. 이 두 가지 결과를 바탕으로 우리는 적은 수의 매개 변수와 추론 시간만 추가하여 효과를 잊지 않고 소규모 샘플 대상 탐지를 달성할 수 있는 두 가지 간단하고 효과적인 구조인 Re-Detector와 Bias-Balanced RPN을 설계했습니다. 키워드: 소표본 학습, 표적 탐지
본 논문에서는 롱테일 데이터 분포를 포함하는 시각적 인식 작업을 처리하기 위한 통합 프레임워크를 제안합니다. 먼저 롱테일 문제를 처리하기 위한 기존 2단계 방법에 대한 실험적 분석을 수행하고 기존 방법의 주요 성능 병목 현상을 찾아냈습니다. 실험적 분석을 바탕으로 롱테일 비전 과제를 체계적으로 해결하기 위한 분포 정렬 전략을 제안합니다.
프레임워크는 2단계 방법을 기반으로 설계되었으며, 첫 번째 단계에서는 특징 표현 학습(표현 학습)을 위해 인스턴스 균형 샘플링 전략이 사용됩니다. 두 번째 단계에서는 먼저 입력 데이터의 점수를 수정하기 위해 입력 인식 정렬 기능을 설계했습니다. 동시에 데이터 세트 분포의 선험성을 도입하기 위해 이미지 분류, 의미론적 분할, 객체 감지 및 인스턴스 분할과 같은 다양한 시각적 작업 시나리오를 처리할 수 있는 일반화된 재가중화 방식을 설계했습니다. 우리는 4가지 작업에 대한 방법을 검증하고 각 작업에서 상당한 성능 향상을 달성했습니다. 키워드: 이미지 분류, 의미론적 분할, 객체 감지, 인스턴스 분할
이 논문에서는 처음으로 완전 컨볼루셔널 표적 검출기에서 NMS(비최대 억제) 후처리를 제거하고 엔드투엔드 훈련을 달성합니다. 우리는 주류 1단계 객체 감지 방법을 분석하여 기존의 일대다 레이블 할당 전략이 NMS에 의존하는 이러한 방법의 핵심임을 확인하고 예측 인식 일대일 레이블 할당 전략을 제안했습니다. 또한, 일대일 레이블 할당 성능을 향상시키기 위해 특징 표현 능력을 강화하는 모듈과 모델 수렴을 가속화하는 보조 손실 함수를 제안합니다. 우리의 방법은 NMS가 없는 주류 1단계 개체 감지 방법과 비슷한 성능을 달성합니다. 밀도가 높은 장면에서 우리 방법의 재현율은 NMS에 의존하는 객체 감지 방법의 이론적 상한을 초과합니다. 키워드: 엔드투엔드 감지, 라벨 할당, 완전 컨볼루셔널 네트워크 https://arxiv.org/abs/2012.03544
우리는 최적 전송 이론을 기반으로 최적의 샘플 매칭 결과를 찾기 위해 타겟 검출 샘플 매칭 전략을 제안합니다. 1) 높은 검출 정확도를 제공합니다. 전체적으로 최적의 매칭 결과는 탐지기가 안정적이고 효율적인 방식으로 훈련되고 궁극적으로 COCO 데이터 세트에서 최적의 탐지 성능을 달성하는 데 도움이 될 수 있습니다. 2) 적용 가능한 시나리오가 다양합니다. 기존 표적 탐지 알고리즘은 밀집된 표적이나 심각한 폐색 등 복잡한 장면을 만날 때 전략을 재설계하거나 매개변수를 조정해야 합니다. 최적 전송 모델에는 전역 모델링 과정에서 최적의 솔루션을 찾는 과정이 포함되어 있어 추가적인 조정 없이 상태를 달성할 수 있습니다. 조밀한 타겟과 심각한 폐색이 있는 다양한 장면에서 최첨단 성능을 발휘하며 적용 가능성이 높습니다. 키워드: 타겟 검출, 최적 전송, 샘플 매칭 전략
1단계 검출기의 라벨 할당은 정적이고 객체 프레임의 전체 정보를 고려하지 않기 때문에 객체 질량 분포 샘플링을 기반으로 하는 객체 검출기를 제안합니다. 본 논문에서는 품질 분포 인코딩 모듈 QDE와 품질 분포 샘플링 모듈 QDS를 제안한다. 가우시안 혼합 모델을 기반으로 대상 프레임의 지역적 특징을 추출하고 예측 프레임의 품질 분포를 모델링함으로써 동적으로 선택할 수 있다. 감지 프레임의 양수 값. 음수 샘플 할당. 이 방법은 훈련 단계에서만 레이블 할당을 포함하며 COCO와 같은 여러 데이터 세트에서 현재 최상의 결과를 얻을 수 있습니다. 키워드: 라벨 할당
본 논문에서 제안하는 FSCE 방법은 특징 표현의 최적화 관점에서 소표본 객체 검출 문제를 해결하는 것을 목표로 한다. 소표본 객체 감지 작업에서는 대상 샘플의 수가 제한되어 있으며 대상 샘플의 올바른 분류가 최종 성능에 큰 영향을 미치는 경우가 많습니다. FSCE는 대조 학습 아이디어를 사용하여 관련 후보 프레임을 인코딩하고 해당 기능 표현을 최적화하여 클래스 내 컴팩트화 및 기능의 클래스 간 반발을 강화합니다. 최종 방법은 일반적인 COCO 및 Pascal VOC 데이터 세트에서 효과적으로 개선되었습니다. . 키워드: 소규모 표본 표적 검출, 비교 학습 논문 링크: https://arxiv.org/abs/2103.05950
기존 주류 NAS 알고리즘은 검증 세트에 대한 서브네트워크의 예측 성능을 통해 모델 검색을 수행하지만, 매개변수 공유 메커니즘에서는 검증 세트에 대한 예측 성능과 모델의 실제 성능 사이에 큰 차이가 있습니다. 처음으로 예측 성능을 기반으로 한 모델 평가의 패러다임을 깨고, 모델 수렴 속도의 관점에서 하위 네트워크를 평가했으며, 모델이 빠르게 수렴할수록 해당 예측 성능이 높아질 것이라는 가설을 세웠습니다.
모델 수렴 프레임워크를 기반으로 모델 수렴이 이미지의 실제 레이블과 관련이 없음을 확인하고, 나아가 슈퍼 네트워크 훈련을 위해 무작위 레이블을 사용하는 새로운 NAS 패러다임-RLNAS를 제안했습니다. RLNAS는 다중 데이터 세트(NAS-Bench-201, ImageNet) 및 다중 검색 공간(DARTS, MobileNet-like)에서 검증되었습니다. 실험 결과는 RLNAS가 무작위 레이블을 검색한 구조만을 사용하여 기존 NAS의 성능을 달성할 수 있음을 보여줍니다. SOTA 수준. RLNAS는 처음에는 반직관적인 것처럼 보이지만 예상외로 좋은 결과는 NAS 커뮤니티에 더 강력한 기준을 제공하고 NAS의 특성에 대해 생각하도록 영감을 줍니다. 키워드: 신경망 아키텍처 검색, 모델 수렴 가정, 무작위 라벨 https://arxiv.org/abs/2101.11834
현재 인간 자세 추정 알고리즘은 히트맵 회귀를 사용하여 최종 관절 지점을 얻습니다. 이러한 방법은 일반적으로 모든 골격 키포인트를 포괄하는 고정 표준 편차 2D 가우스 커널을 사용하여 실제 히트 맵을 구성하고 실제 히트 맵을 사용하여 모델을 감독합니다. 서로 다른 사람들의 관절점에 대한 실제 히트 맵은 동일한 가우스 커널을 사용하여 구성되므로 이 방법은 서로 다른 사람의 규모 차이를 고려하지 않으며, 이는 레이블 모호성을 유발하고 모델 효과에 영향을 미칩니다.
본 논문에서는 인체 크기에 따라 라벨을 구성하는 데 필요한 표준편차를 적응적으로 생성할 수 있는 척도 적응형 히트맵 회귀를 제안하여 다양한 척도의 인체에 대해 모델을 더욱 견고하게 만들고 체중 적응형 회귀를 제안합니다. 양성 샘플과 음성 샘플의 균형을 맞추고 규모 적응형 열 지도 회귀 효과를 추가로 탐색합니다. 이 논문은 마침내 상향식 인간 자세 추정에서 가장 발전된 성능을 달성했습니다. 키워드: 인간 자세 추정, 상향식, 적응형 히트맵 회귀 https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID는 탐지 작업을 기반으로 한 새로운 증류 방법을 제안합니다. GISM 모듈은 Teacher와 Studnet에서 각각 일반 인스턴스(GI)를 추출하여 기능 기반, 관계 기반 및 응답 기반 증류에 대해 큰 차이가 있는 인스턴스를 적응적으로 선택하도록 제안됩니다. 이 방법은 처음으로 검출 프레임워크에 관계형 지식 증류를 적용하고 양성 및 음성 샘플 증류의 독립적인 고려에서 보다 필수적인 GI 증류로 증류 대상을 통합하며 이 프로세스는 GT에 의존하지 않고 SOTA에 도달합니다. 키워드: 표적 탐지, 지식 증류 https://arxiv.org/abs/2103.02340
우리는 활성화 여부를 적응적으로 학습할 수 있는 새로운 활성화 함수 ACON(활성화 여부)을 제안합니다. ACON은 ReLU와 Swish 사이의 연결을 설정했습니다. 두 가지 형식이 매우 다르지만 Swish는 ReLU의 부드러운 형식이라는 것을 발견했습니다. 이 발견을 바탕으로 SENet에 비해 2배의 비용 절감 효과를 달성한 Meta-acon과 같은 더 많은 변형을 추가로 제안했습니다. 우리는 여러 작업에서 이 간결하고 효과적인 활성화 함수의 일반화 성능을 검증합니다. 키워드: 활성화 함수, 신경망 https://arxiv.org/abs/2009.04759
이 기사에서는 먼저 단일 단계 감지기 RetinaNet에서 FPN의 역할을 분석했습니다. 실험을 통해 FPN에서 서로 다른 규모의 개체를 서로 다른 감지 수준에 할당하는 분할 정복 아이디어가 훌륭하다는 것을 발견했습니다. 탐지 결과에 영향을 미칩니다. 최적화 관점에서 볼 때 이 아이디어는 탐지의 최적화 문제를 분해하여 최적화 학습을 더욱 단순화하고 탐지 정확도를 향상시킵니다. 그러나 다중 레벨 기능을 기반으로 한 FPN 설계는 탐지 방법의 네트워크 구조를 복잡하게 하고, 추가 계산을 도입하며 탐지 속도를 느리게 합니다. 위의 문제를 피하기 위해 본 논문에서는 단일 수준에서 모든 규모의 객체를 탐지하는 동시에 단일 수준 특징 탐지에서 어려운 최적화 문제를 해결하기 위해 홀 인코더와 균형 매칭 솔루션을 제안합니다. 제안했다.
본 논문에서 제안하는 단일 레벨 특징 기반 검출기 YOLOF의 검출 정확도는 C5 특징만을 사용하는 경우 FPN 기반 RetinaNet과 비슷하며 검출 속도는 RetinaNet의 2.5배이다. 또한 C5 기능만 사용하는 DETR과 비교할 때 YOLOF는 더 빠른 수렴(7배)으로 비슷한 성능을 달성할 수 있습니다. 키워드: 단일 단계 표적 탐지, 단일 규모 기능, 탐지 속도와 정확성 간의 균형 https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
라벨링 비용을 증가시키지 않고 검출기의 성능을 향상시키는 것이 본 연구의 목표입니다. 본 논문에서는 검출기를 훈련하기 위해 소수의 경계 상자와 다수의 점 주석을 선택합니다. 포인트 주석은 정보가 풍부하기 때문에 선택됩니다. 인스턴스의 위치 및 카테고리 정보가 포함되어 있고 주석 비용이 저렴합니다. 본 논문에서는 포인트 인코더를 DETR로 확장하여 포인트 DETR을 제안합니다. 경계 상자 데이터를 통해 포인트 DETR을 학습하고, 경계 상자 및 의사 상자 데이터를 통해 의사 상자를 예측합니다. COCO 데이터 세트에서 전체 주석이 달린 데이터의 20%만 사용하여 탐지기는 기준선을 2.0AP 초과하는 33.3AP를 달성했습니다. 키워드: 표적 탐지, 준감독, 약한 감독
광각렌즈는 넓은 화각으로 많은 사랑을 받고 있지만, 배경선이 휘어지는 현상, 얼굴이 늘어나거나 눌려지는 현상, 기울어지는 현상 등으로 나타나는 렌즈 왜곡과 원근 왜곡이 문제입니다. 이를 위해 본 논문에서는 선 보정 네트워크, 얼굴 보정 네트워크, 전환 모듈로 구성된 캐스케이드 왜곡 제거 네트워크를 구성하여 배경은 원근 투영을 나타내고 얼굴 영역은 입체 투영을 나타내며 둘 사이가 원활하게 전환됩니다. FOV를 유지하면서 다양한 왜곡을 제거합니다. 이 방법은 카메라 매개 변수가 필요하지 않고 실시간 성능을 얻을 수 있으며 정성적, 정량적 평가 모두에서 기존 방법을 능가합니다. 키워드: 광각 인물 왜곡 보정, 심층 캐스케이드 네트워크
우리는 새로운 비지도 광학 흐름 학습 방법 UPFlow를 제안합니다. 우리는 현재의 감독되지 않은 광학 흐름 방법이 다중 규모 피라미드 처리에 두 가지 문제, 즉 흐름 업샘플링 프로세스의 보간 모호성 문제와 다중 규모 흐름의 감독 부족 문제를 발견했습니다. 이에 본 논문에서는 보간 플로우와 보간 맵을 사용하여 업샘플링 보간 메커니즘을 변경함으로써 보다 정교한 업샘플링을 달성하는 셀프 가이드 업샘플링 모듈을 제안한다. 또한 우리는 다중 규모 흐름의 학습을 감독하기 위해 네트워크의 최종 출력을 의사 레이블로 사용할 것을 제안합니다. 이러한 개선을 바탕으로 우리의 방법은 더 명확하고 선명한 광학 흐름 결과를 얻을 수 있습니다. 우리는 Sintel, KITTI 2012 및 KITTI 2015를 포함한 여러 광학 흐름 벤치마크 데이터 세트에 대한 실험을 수행합니다. UPFlow의 성능은 현재 최고의 비지도 광학 흐름 알고리즘을 약 20% 능가합니다. 키워드: 광학 흐름 추정, 비지도 학습 https://arxiv.org/abs/2012.00212
NBNet은 이미지 노이즈 감소 문제를 해결하는 프레임워크입니다. 우리는 이미지 적응 투영이라는 새로운 관점으로 이 문제에 접근합니다. 구체적으로, 우리는 특징 공간에서 일련의 부분 공간을 학습하고, 적절한 신호 부분 공간을 선택하고 이 부분 공간에 투영함으로써 이미지 노이즈 제거를 수행할 수 있습니다. 이전의 1볼륨 네트워크 구조와 비교하여 NBNet은 프로젝션을 통해 이미지의 구조적 정보, 특히 약한 질감 영역을 자연스럽고 효율적으로 추출하고 활용할 수 있어 이미지 복원에 도움이 됩니다. 이러한 간단한 방법을 통해 NBNet은 더 적은 계산으로 DND와 SIDD 두 가지 벤치마크에서 SOTA를 달성했습니다. 키워드: 이미지 노이즈 제거, 부분 공간 https://arxiv.org/abs/2012.15028
이 작업은 메트릭의 중요한 속성인 "동적 범위"를 심층 메트릭 학습에 도입하여 "동적 메트릭 학습"이라는 새로운 작업을 탄생시킵니다. 이전의 깊이 측정에는 실제로 얼굴과 보행자가 유사한지 또는 다른지를 구별하는 것과 같은 하나의 척도만 포함되어 있음을 발견했습니다. 이러한 측정 도구가 아무리 정확하더라도 유연성이 떨어지고 실제 사용에 제한이 있습니다. 실제로 일상적인 측정 도구에는 일반적으로 동적 범위가 있습니다. 예를 들어 눈금자에는 항상 다양한 눈금의 물체를 측정할 수 있는 여러 눈금(예: 1mm, 1cm 또는 심지어 10cm)이 있습니다. 우리는 딥 메트릭 학습 분야에서 다이내믹 레인지를 도입할 때가 왔다고 믿습니다. 왜냐하면 시각적인 개념 자체가 크기가 다르기 때문입니다. '동물'과 '식물'은 모두 큰 규모에 해당하고, '엘크'는 상대적으로 작은 규모에 해당합니다. 작은 규모에서는 두 엘크가 매우 다르게 보일 수 있지만, 큰 규모에서는 동일한 두 엘크가 매우 유사한 것으로 간주되어야 합니다.
이를 위해 우리는 다양한 의미 크기의 시각적 개념에 대한 유사성 척도를 동시에 제공할 수 있는 단일 메트릭 공간을 학습해야 하는 동적 메트릭 학습 작업을 제안합니다. 또한 3개의 다중 규모 데이터 세트를 구성하고 간단한 기준 방법을 제안합니다. 우리는 다이내믹 레인지가 딥 메트릭 학습의 필수 속성이 될 것이며 딥 메트릭 학습 전체 분야에 새로운 관점과 새로운 응용 시나리오를 가져올 것이라고 믿습니다.
췌장 질량 분할, 진단 및 정량적 환자 관리를 위한 3D 그래프 해부 기하학 통합 네트워크
심층 병변 추적기: 4D 종단 영상 연구에서 병변 모니터링 https://arxiv.org/abs/2012.04872
척추 교정 및 해부학적으로 제한된 최적화를 통한 CT의 자동 척추 위치 파악 및 식별 https://arxiv.org/abs/2012.07947
적응형 시간 특징 해상도를 갖춘 3D CNN https://arxiv.org/abs/2011.08652
KeepAugment: 간단한 정보 보존 데이터 확장 https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: 사전 훈련된 블랙박스 GAN의 의도하지 않은 사용 https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: 동적 장면을 위한 신경 복사장 https://arxiv.org/abs/2011.13961
비디오의 시간적 활동 탐지를 위한 대략적인 네트워크
자기 감독 감지 사전 훈련을 위한 인스턴스 현지화 https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
캡슐을 사용한 약하게 감독된 접지 시각적 질문 응답
4D Panoptic LiDAR 분할 https://arxiv.org/abs/2102.12472
Dogfight: 드론 비디오에서 드론 감지
객체 감지를 위한 다중 인스턴스 능동 학습 https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
다중 뷰 클러스터링을 위한 표현 정렬 재고
도로 역학 및 비용 지도에 대한 자체 감독 동시 다단계 예측
계층적 스타일 분리를 통한 이미지-이미지 번역 Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: 빠른 프레임 보간을 위한 흐름 독립적 비디오 표현 https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: 장소 인식을 위한 로컬 전역 설명자의 다중 규모 융합 Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
카메라 모션 및 객체 감지의 깊이 Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: Transformers를 사용한 객체 감지를 위한 비지도 사전 훈련 https://arxiv.org/pdf/2011.09094.pdf
다단계 프로그레시브 이미지 복원 https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
강성 3D 장면 흐름의 약한 지도 학습 https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Few-Shot 학습을 위한 불변 및 등변 표현의 보완적 강점 탐색 Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
ImageNet의 라벨 재지정: 단일 라벨에서 다중 라벨로, 글로벌 라벨에서 현지화된 라벨로 https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
효율적인 모델 설계를 위한 채널 차원 재고 https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
비디오의 시간적 활동 탐지를 위한 대략적인 네트워크 Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
3D 캐릭터의 2차 모션을 위한 딥 에뮬레이터 Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
잠재 공간 편향 제거를 통한 공정한 속성 분류 https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
단일 이미지 그림자 제거를 위한 자동 노출 융합 Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
적을수록 좋습니다: 희소 샘플링을 통한 비디오 및 언어 학습을 위한 CLIPBERT https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: 비디오 압축 감지를 위한 확장 가능하고 적응형 재구성 Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: Attentive를 통한 신경 아키텍처 검색 개선 https://arxiv.org/pdf/2011.09011.pdf
3D 포인트 클라우드 생성을 위한 확산 확률 모델 Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
눈에 보이는 것 이상이 있습니다: 다중 모달 지식을 추출하여 소리를 통한 자체 감독 다중 객체 감지 및 추적 Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
스타일로 인코딩: 이미지-이미지 변환을 위한 StyleGAN 인코더 https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
목표 관계 그래프를 통한 계층적 및 부분적으로 관찰 가능한 목표 중심 정책 학습 Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: VGG 스타일 ConvNet을 다시 훌륭하게 만들기 https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
주의 시각화를 넘어서는 변환기 해석성 https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: 낮은 중첩으로 3D 포인트 클라우드 등록 https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
이상 탐지를 위한 다중 해상도 지식 증류 https://arxiv.org/abs/2011.11108
객체 감지를 위한 야생에서의 라벨이 지정되지 않은 양성 데이터 정제
이미지 초해상도를 위한 데이터 없는 지식 증류
다양한 정규화된 동적 네트워크 가지치기
사전 훈련된 이미지 처리 변환기 https://arxiv.org/pdf/2012.00364.pdf
ReNAS: 신경 아키텍처 검색의 상대론적 평가 https://arxiv.org/pdf/1910.01523.pdf
AdderSR: 에너지 효율적인 이미지 초해상도를 향하여 https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
야생에서 학습하는 학생 네트워크 https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: 모래시계 렌즈를 통한 매우 빠른 신경 아키텍처 검색 https://arxiv.org/pdf/2005.14446.pdf
교차 모달 검색을 위한 확률적 임베딩 https://arxiv.org/abs/2101.05068
PLOP: 지속적인 의미론적 분할을 위한 망각 없는 학습 https://arxiv.org/abs/2011.11390
레인보우 메모리: 다양한 샘플의 기억을 통한 지속적인 학습
실시간 이미지 편집을 위해 GAN의 잠재 공간 차원 활용
1.GhostNet: 저렴한 운영의 추가 기능(Mobilenet v3 이상의 아키텍처) 문서 링크: https://arxiv.org/pdf/1911.11907arxiv.org 모델(ARM CPU의 놀라운 성능): https://github.com /ghostnetgithub.com
Mobilenetv3 및 FBNet과 같은 다른 SOTA 경량 CNN을 이겼습니다.
Addernet : 딥 러닝에서 곱셈이 필요합니까 (부가 적 신경망)는 대규모 신경 네트워크 및 데이터 세트에서 매우 우수한 성능을 달성했습니다
주파수 도메인 소형 3D 컨볼 루션 신경 네트워크 (3DCNN 압축) 용지 링크 : https://arxiv.org/pdf/1909.0497777777777777777777aRXIV.org 오픈 소스 코드 : https://github.com/huawei-noah/carsgithub.com
신경 아키텍처의 반 감독 평가자 (신경망 정확도 예측 변수 NAS)
히트 감지기 : 계층 적 삼위 일체 아키텍처 객체 감지 검색 (NAS 감지) 백본-넥 헤드 검색, 트리니티
자동차 : 효율적인 신경 구조 검색 (NAS)을위한 지속적인 진화 (NAS)는 효율적이며, 차별화와 진화의 여러 장점이 있으며, 전면 연구를 출력 할 수 있습니다.
Gan (PU+GAN)의 긍정적 인 알바벨 분류
Multiview 3D 포인트 클라우드 등록 (3D 포인트 클라우드) 용지 링크 : arxiv.org/abs/2001.05119
세분화 된 액션 인식 용지 링크 : arxiv.org/abs/2001.09691에 대한 멀티 모달 도메인 적응
액션 수정 자 : 교육용 비디오 논문 링크 : Arxiv.org/abs/1912.06617에서 부사 학습
POLARMASK : 극성 표현 (인스턴스 세분화 모델링)을 사용한 단일 샷 인스턴스 세그먼테이션 용지 링크 : Arxiv.org/abs/1909.13226 종이 해석 : https://zhuanlan.zhihu.com/p/84890413 오픈 소스 코드 : https : // github. com/xieenze/polarmask
신경 아키텍처 검색 (NAS)의 성능 추정 재고를 다시 생각합니다. 블록 현명한 신경 아키텍처 검색의 실시간 소비 부분이 성능 추정 부분이기 때문에이 기사는 블록 현명한 NAS의 최적 매개 변수를 찾습니다.
인간 포즈 추정 논문 링크에 대한 배포 조정 표현 : arxiv.org/1910.06278 github : https://github.com/ilovepose/darkpose 저자 홈페이지 : https://ilovepose.github.io/ coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. 편향된 훈련에서 편견없는 장면 그래프를 생성합니다
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184