CVPR 2024 결정은 이제 OpenReview에서 확인할 수 있습니다!
참고 1: 누구나 문제를 제출하고 CVPR 2024 논문 및 오픈 소스 프로젝트를 공유할 수 있습니다!
참고 2: 이전 CV 컨퍼런스 논문과 기타 고품질 CV 논문 및 종합 리뷰에 대한 자세한 내용은 https://github.com/amusi/daily-paper-computer-vision을 참조하세요.
- ECCV2024
- CVPR 2023
최대 규모의 컴퓨터 비전 AI 지식 행성인 [CVer 학술 교류 그룹]에 참여하기 위해 QR 코드를 스캔하신 것을 환영합니다! 매일 업데이트되며, 컴퓨터 비전, AI 페인팅, 이미지 처리, 딥러닝, 자율주행, 의료영상 및 AIGC 분야의 최신 최첨단 학습 자료를 빠르게 공유하세요!
Scaffold-GS: 뷰 적응형 렌더링을 위한 구조화된 3D 가우스
GPS-가우스: 실시간 휴먼 노블 뷰 합성을 위한 일반화 가능한 픽셀별 3D 가우스 스플래팅
GaussianAvatar: 애니메이션 가능한 3D 가우시안을 통해 단일 비디오에서 사실적인 인간 아바타 모델링을 향하여
GaussianEditor: 가우시안 스플래팅을 사용한 신속하고 제어 가능한 3D 편집
충실도가 높은 단안 동적 장면 재구성을 위한 변형 가능한 3D 가우스
SC-GS: 편집 가능한 동적 장면을 위한 희소 제어 가우스 스플래팅
실시간 동적 뷰 합성을 위한 시공간 가우스 특징 스플래팅
DNGaussian: 글로벌-로컬 깊이 정규화를 통해 희소 뷰 3D 가우스 래디언스 필드 최적화
실시간 동적 장면 렌더링을 위한 4D 가우스 스플래팅
GaussianDreamer: 2D 및 3D 확산 모델을 연결하여 텍스트에서 3D 가우스로 빠르게 생성
GaussianAvatar: 애니메이션 가능한 3D 가우시안을 통해 단일 비디오에서 사실적인 인간 아바타 모델링을 향하여
머리 장착형 센서의 실시간 시뮬레이션 아바타
RepViT: ViT 관점에서 모바일 CNN 재검토
TransNeXt: 비전 트랜스포머를 위한 강력한 중심와 시각적 인식
Alpha-CLIP: 원하는 곳에 초점을 맞춘 CLIP 모델
FairCLIP: 비전 언어 학습의 공정성 활용
EmbodiedScan: 구현된 AI를 위한 전체적인 다중 모드 3D 인식 제품군
MP5: 능동 인식을 통한 Minecraft의 다중 모드 개방형 구현 시스템
LEMON: 2D 이미지에서 3D 인간-객체 상호 작용 관계 학습
OCR의 스케일링 법칙에 관한 실증적 연구
ODM: 장면 텍스트 감지 및 발견을 위한 텍스트-이미지 추가 정렬 사전 훈련 접근 방식
PIE-NeRF?: NeRF를 사용한 물리학 기반 대화형 탄성역학
DETR은 실시간 객체 감지에서 YOLO를 능가합니다.
Salience DETR: 계층적 Salience 필터링 개선을 통해 탐지 변환기 향상
mPLUG-Owl2: 모달리티 협업을 통한 다중 모드 대형 언어 모델 혁신
다중 모드 LLM을 위한 링크 컨텍스트 학습
OPERA: 과잉 신뢰 페널티 및 회고 할당을 통해 다중 모드 대형 언어 모델의 환각 완화
대규모 다중 모드 모델이 임의의 시각적 프롬프트를 이해하도록 만들기
핑크: 다중 모드 LMS에 대한 참조 이해의 힘 공개
Chat-UniVi: 통합된 시각적 표현으로 이미지 및 비디오 이해를 통해 대규모 언어 모델 지원
OneLLM: 모든 양식을 언어에 맞추는 하나의 프레임워크
VTimeLLM: 비디오 순간을 포착할 수 있도록 LLM 역량 강화
매직 토큰: 다중 모드 객체 재식별을 위한 다양한 토큰 선택
텍스트-이미지 개인 재식별을 위한 잡음 대응 학습
논문: https://arxiv.org/abs/2308.09911
코드: https://github.com/QinYang79/RDE
InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어
홈페이지: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
논문: https://arxiv.org/abs/2402.03290
코드: https://github.com/frank-xwang/InstanceDiffusion
잔류 노이즈 제거 확산 모델
DeepCache: 무료로 확산 모델 가속화
DEADiff: 얽힌 표현을 사용한 효율적인 스타일화 확산 모델
홈페이지: https://tianhao-qi.github.io/DEADiff/
논문: https://arxiv.org/abs/2403.06951
코드: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: 확산 모델을 사용한 텍스트 기반 SVG 생성
InteractDiffusion: 텍스트-이미지 확산 모델을 위한 상호작용 제어
MMA-확산: 확산 모델에 대한 다중 모드 공격
VMC: 텍스트-비디오 확산 모델에 대한 시간적 주의 적응을 사용한 비디오 모션 사용자 정의
TransNeXt: 비전 트랜스포머를 위한 강력한 중심와 시각적 인식
RepViT: ViT 관점에서 모바일 CNN 재검토
토큰 확장을 통한 Transformer에 대한 일반적이고 효율적인 교육
PromptKD: 비전 언어 모델을 위한 비지도 프롬프트 증류
FairCLIP: 비전 언어 학습의 공정성 활용
DETR은 실시간 객체 감지에서 YOLO를 능가합니다.
제로샷 주야간 도메인 적응으로 객체 감지 강화
YOLO-World: 실시간 개방형 어휘 개체 감지
Salience DETR: 계층적 Salience 필터링 개선을 통해 탐지 변환기 향상
오픈셋 감독 이상 탐지를 위한 이상 이질성 학습
다중 객체 추적을 위한 궤적 롱테일 분포 탐구
더 강력하고, 더 적고, 더 우수합니다: 도메인 일반화 의미론적 분할을 위한 비전 기반 모델 활용
SED: 개방형 어휘 의미론적 분할을 위한 간단한 인코더-디코더
기능 재임베딩: 전산 병리학의 기초 모델 수준 성능을 향하여
VoCo: 3D 의료 영상 분석을 위한 간단하면서도 효과적인 볼륨 대비 학습 프레임워크
ChAda-ViT: 이종 현미경 이미지의 공동 표현 학습을 위한 채널 적응형 주의
UniPAD: 자율 주행을 위한 보편적인 사전 훈련 패러다임
Cam4DOcc: 자율 주행 애플리케이션에서 카메라 전용 4D 점유율 예측을 위한 벤치마크
온라인 3D 장면 인식을 위한 메모리 기반 어댑터
상황별 인스턴스 쿼리를 사용하여 3D 의미론적 장면 완성을 조화시킵니다.
길가 협동 인식을 위한 실제 대규모 데이터세트
자율주행을 위한 싱글뷰와 멀티뷰 깊이의 적응형 융합
TSP6K 데이터 세트를 통한 교통 장면 구문 분석
PTT: 효율적인 시간적 3D 객체 감지를 위한 점-궤적 변환기
UniMODE: 통합 단안 3D 객체 감지
모두를 위한 하나의 편집: 대화형 배치 이미지 편집
MaskINT: 보간적 비자동회귀 마스크 변환기를 통한 비디오 편집
홈페이지: https://maskint.github.io
논문: https://arxiv.org/abs/2312.12468
잔류 노이즈 제거 확산 모델
사전 훈련된 모델의 사전 변수를 통해 이미지 복원 강화
SeD: 이미지 초해상도를 위한 의미 인식 판별기
APISR: 애니메이션 제작에 영감을 받은 실제 애니메이션 초해상도
효율적인 변압기 기반 3D 인간 자세 추정을 위한 Hourglass Tokenizer
InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어
홈페이지: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
논문: https://arxiv.org/abs/2402.03290
코드: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: 이미지 생성을 위한 리소스 효율적인 텍스트-이미지 변환
홈페이지 : https://eclipse-t2i.vercel.app/
논문: https://arxiv.org/abs/2312.04655
코드: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: 다중 모드 명령을 사용한 이미지 생성
잔류 노이즈 제거 확산 모델
UniGS: 이미지 생성 및 분할을 위한 통합 표현
텍스트-이미지 합성을 위한 다중 인스턴스 생성 컨트롤러
SVGDreamer: 확산 모델을 사용한 텍스트 기반 SVG 생성
InteractDiffusion: 텍스트-이미지 확산 모델을 위한 상호작용 제어
Ranni: 정확한 프롬프트 팔로우를 위해 텍스트-이미지 확산 길들이기
동영상 블로거: 꿈을 동영상 블로그로 만드세요
VBench: 비디오 생성 모델을 위한 종합 벤치마크 제품군
VMC: 텍스트-비디오 확산 모델에 대한 시간적 주의 적응을 사용한 비디오 모션 사용자 정의
CityDreamer: 무한한 3D 도시의 구성 생성 모델
LucidDreamer: 간격 점수 매칭을 통한 고품질 텍스트-3D 생성을 향하여
MVBench: 벤치마크를 이해하는 포괄적인 다중 모드 비디오
지식 증류의 로짓 표준화
Minimax Diffusion을 통한 효율적인 데이터 세트 추출
스테레오 매칭을 위한 신경 마르코프 랜덤 필드
HiKER-SGG: 계층적 지식이 강화된 강력한 장면 그래프 생성
KVQ: 단편 비디오에 대한 만화경 비디오 품질 평가
홈페이지: https://lixinustc.github.io/projects/KVQ/
논문: https://arxiv.org/abs/2402.07220
코드: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
길가 협동 인식을 위한 실제 대규모 데이터세트
TSP6K 데이터 세트를 통한 교통 장면 구문 분석
다음 토큰 예측으로서의 객체 인식
ParameterNet: 모바일 네트워크의 대규모 시각적 사전 훈련에 매개변수만 있으면 됩니다.
혼합된 위치 인코딩을 사용한 원활한 인간 동작 구성
LL3DA: Omni-3D 이해, 추론 및 계획을 위한 시각적 대화형 지침 조정
홈페이지 : https://ll3da.github.io/
논문: https://arxiv.org/abs/2311.18651
코드: https://github.com/Open3DA/LL3DA
CLOVA: 도구 사용 및 업데이트 기능을 갖춘 Closed-LOop 시각적 도우미
MoMask: 3D 인간 동작의 생성적 마스크 모델링
Amodal Ground Truth 및 야생에서의 완성
일관된 설명을 통해 향상된 시각적 접지
ImageNet-D: 확산 합성 개체에 대한 신경망 견고성 벤치마킹
합성 인간 그룹 활동을 통해 학습
주제 간 두뇌 디코딩 프레임워크
하위 전문가의 혼합을 통한 다중 작업 밀도 예측
일반화된 범주 발견을 위한 대조 평균 이동 학습