CVPR2024 Papers with Code 다운로드 - CVPR2024 Papers with Code 소스 코드 다운로드

CVPR2024 Papers with Code

파이썬

1.0.0

다운로드

CVPR 2024 논문 및 오픈 소스 프로젝트 컬렉션(코드가 포함된 논문)

CVPR 2024 결정은 이제 OpenReview에서 확인할 수 있습니다!

참고 1: 누구나 문제를 제출하고 CVPR 2024 논문 및 오픈 소스 프로젝트를 공유할 수 있습니다!
참고 2: 이전 CV 컨퍼런스 논문과 기타 고품질 CV 논문 및 종합 리뷰에 대한 자세한 내용은 https://github.com/amusi/daily-paper-computer-vision을 참조하세요.
ECCV2024
CVPR 2023

최대 규모의 컴퓨터 비전 AI 지식 행성인 [CVer 학술 교류 그룹]에 참여하기 위해 QR 코드를 스캔하신 것을 환영합니다! 매일 업데이트되며, 컴퓨터 비전, AI 페인팅, 이미지 처리, 딥러닝, 자율주행, 의료영상 및 AIGC 분야의 최신 최첨단 학습 자료를 빠르게 공유하세요!

[CVPR 2024 오픈소스 논문 디렉토리]

3DGS(가우스 스플래팅)
아바타
등뼈
클립
매
구체화된 AI
간
GNN
다중 모드 대형 언어 모델(MLLM)
대형 언어 모델(LLM)
나스
OCR
NRF
DETR
즉각적인
확산 모델
ReID(재식별)
롱테일 분포(Long-Tail)
비전 트랜스포머
비전-언어
자기 지도 학습
데이터 증대
객체 감지
이상 탐지
표적 추적(시각적 추적)
의미론적 분할
인스턴스 분할
Panoptic 분할
의료영상
의료 영상 분할
비디오 객체 분할
비디오 인스턴스 분할
참조 이미지 분할
이미지 매트
이미지 편집
낮은 수준의 시력
초해상도
노이즈 제거
디블러
자율주행
3D 포인트 클라우드
3D 객체 감지
3D 의미론적 분할
3D 개체 추적
3D 의미론적 장면 완성(3D Semantic Scene Completion)
3D등록
3D 인간 자세 추정
3D 휴먼 메시 추정
의료영상
이미지 생성
비디오 생성
3D 생성
영상이해
액션 감지
텍스트 감지
지식 증류
모델 가지치기
이미지 압축
3D 재구성
깊이 추정
궤도 예측
차선 감지
이미지 캡션
시각적 질문 답변
수화 인식
비디오 예측
소설관 종합
Zero-Shot Learning(제로 샘플 학습)
스테레오 매칭
기능 매칭
장면 그래프 생성
암시적 신경 표현
이미지 품질 평가
비디오 품질 평가
데이터세트
새로운 작업
기타

3DGS(가우스 스플래팅)

Scaffold-GS: 뷰 적응형 렌더링을 위한 구조화된 3D 가우스

홈페이지: https://city-super.github.io/scaffold-gs/
논문: https://arxiv.org/abs/2312.00109
코드: https://github.com/city-super/Scaffold-GS

GPS-가우스: 실시간 휴먼 노블 뷰 합성을 위한 일반화 가능한 픽셀별 3D 가우스 스플래팅

홈페이지: https://shunyuanzheng.github.io/GPS-Gaussian
논문: https://arxiv.org/abs/2312.02155
코드: https://github.com/ShunyuanZheng/GPS-Gaussian

GaussianAvatar: 애니메이션 가능한 3D 가우시안을 통해 단일 비디오에서 사실적인 인간 아바타 모델링을 향하여

논문: https://arxiv.org/abs/2312.02134
코드: https://github.com/huliangxiao/GaussianAvatar

GaussianEditor: 가우시안 스플래팅을 사용한 신속하고 제어 가능한 3D 편집

논문: https://arxiv.org/abs/2311.14521
코드: https://github.com/buaacyw/GaussianEditor

충실도가 높은 단안 동적 장면 재구성을 위한 변형 가능한 3D 가우스

홈페이지: https://ingra14m.github.io/Deformable-Gaussians/
논문: https://arxiv.org/abs/2309.13101
코드: https://github.com/ingra14m/Deformable-3D-Gaussians

SC-GS: 편집 가능한 동적 장면을 위한 희소 제어 가우스 스플래팅

홈페이지: https://yihua7.github.io/SC-GS-web/
논문: https://arxiv.org/abs/2312.14937
코드: https://github.com/yihua7/SC-GS

실시간 동적 뷰 합성을 위한 시공간 가우스 특징 스플래팅

홈페이지: https://oppo-us-research.github.io/SpacetimeGaussians-website/
논문: https://arxiv.org/abs/2312.16812
코드: https://github.com/oppo-us-research/SpacetimeGaussians

DNGaussian: 글로벌-로컬 깊이 정규화를 통해 희소 뷰 3D 가우스 래디언스 필드 최적화

홈페이지: https://fictionarry.github.io/DNGaussian/
논문: https://arxiv.org/abs/2403.06912
코드: https://github.com/Fictionarry/DNGaussian

실시간 동적 장면 렌더링을 위한 4D 가우스 스플래팅

논문: https://arxiv.org/abs/2310.08528
코드: https://github.com/hustvl/4DGaussians

GaussianDreamer: 2D 및 3D 확산 모델을 연결하여 텍스트에서 3D 가우스로 빠르게 생성

논문: https://arxiv.org/abs/2310.08529
코드: https://github.com/hustvl/GaussianDreamer

아바타

GaussianAvatar: 애니메이션 가능한 3D 가우시안을 통해 단일 비디오에서 사실적인 인간 아바타 모델링을 향하여

논문: https://arxiv.org/abs/2312.02134
코드: https://github.com/huliangxiao/GaussianAvatar

머리 장착형 센서의 실시간 시뮬레이션 아바타

홈페이지: https://www.zhengyiluo.com/SimXR/
논문: https://arxiv.org/abs/2403.06862

등뼈

RepViT: ViT 관점에서 모바일 CNN 재검토

논문: https://arxiv.org/abs/2307.09283
코드: https://github.com/THU-MIG/RepViT

TransNeXt: 비전 트랜스포머를 위한 강력한 중심와 시각적 인식

논문: https://arxiv.org/abs/2311.17132
코드: https://github.com/DaiShiResearch/TransNeXt

클립

Alpha-CLIP: 원하는 곳에 초점을 맞춘 CLIP 모델

논문: https://arxiv.org/abs/2312.03818
코드: https://github.com/SunzeY/AlphaCLIP

FairCLIP: 비전 언어 학습의 공정성 활용

논문: https://arxiv.org/abs/2403.19949
코드: https://github.com/Harvard-Ophalmology-AI-Lab/FairCLIP

매

구체화된 AI

EmbodiedScan: 구현된 AI를 위한 전체적인 다중 모드 3D 인식 제품군

홈페이지: https://tai-wang.github.io/embodiedscan/
논문: https://arxiv.org/abs/2312.16170
코드: https://github.com/OpenRobotLab/EmbodiedScan

MP5: 능동 인식을 통한 Minecraft의 다중 모드 개방형 구현 시스템

홈페이지: https://iranqin.github.io/MP5.github.io/
논문: https://arxiv.org/abs/2312.07472
코드: https://github.com/IranQin/MP5

LEMON: 2D 이미지에서 3D 인간-객체 상호 작용 관계 학습

논문: https://arxiv.org/abs/2312.08963
코드: https://github.com/yyvhang/lemon_3d

간

OCR

OCR의 스케일링 법칙에 관한 실증적 연구

논문: https://arxiv.org/abs/2401.00028
코드: https://github.com/large-ocr-model/large-ocr-model.github.io

ODM: 장면 텍스트 감지 및 발견을 위한 텍스트-이미지 추가 정렬 사전 훈련 접근 방식

논문: https://arxiv.org/abs/2403.00303
코드: https://github.com/PriNing/ODM

NRF

PIE-NeRF?: NeRF를 사용한 물리학 기반 대화형 탄성역학

논문: https://arxiv.org/abs/2311.13099
코드: https://github.com/FYTalon/pienerf/

DETR

DETR은 실시간 객체 감지에서 YOLO를 능가합니다.

논문: https://arxiv.org/abs/2304.08069
코드: https://github.com/lyuwenyu/RT-DETR

Salience DETR: 계층적 Salience 필터링 개선을 통해 탐지 변환기 향상

논문: https://arxiv.org/abs/2403.16131
코드: https://github.com/xiuqhou/Salience-DETR

즉각적인

다중 모드 대형 언어 모델(MLLM)

mPLUG-Owl2: 모달리티 협업을 통한 다중 모드 대형 언어 모델 혁신

논문: https://arxiv.org/abs/2311.04257
코드: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

다중 모드 LLM을 위한 링크 컨텍스트 학습

논문: https://arxiv.org/abs/2308.07891
코드: https://github.com/isekai-portal/Link-Context-Learning/tree/main

OPERA: 과잉 신뢰 페널티 및 회고 할당을 통해 다중 모드 대형 언어 모델의 환각 완화

논문: https://arxiv.org/abs/2311.17911
코드: https://github.com/shikiw/OPERA

대규모 다중 모드 모델이 임의의 시각적 프롬프트를 이해하도록 만들기

홈페이지: https://vip-llava.github.io/
논문: https://arxiv.org/abs/2312.00784

핑크: 다중 모드 LMS에 대한 참조 이해의 힘 공개

논문: https://arxiv.org/abs/2310.00582
코드: https://github.com/SY-Xuan/Pink

Chat-UniVi: 통합된 시각적 표현으로 이미지 및 비디오 이해를 통해 대규모 언어 모델 지원

논문: https://arxiv.org/abs/2311.08046
코드: https://github.com/PKU-YuanGroup/Chat-UniVi

OneLLM: 모든 양식을 언어에 맞추는 하나의 프레임워크

논문: https://arxiv.org/abs/2312.03700
코드: https://github.com/csuhan/OneLLM

대형 언어 모델(LLM)

VTimeLLM: 비디오 순간을 포착할 수 있도록 LLM 역량 강화

논문: https://arxiv.org/abs/2311.18445
코드: https://github.com/huangb23/VTimeLLM

나스

ReID(재식별)

매직 토큰: 다중 모드 객체 재식별을 위한 다양한 토큰 선택

논문: https://arxiv.org/abs/2403.10254
코드: https://github.com/924973292/EDITOR

텍스트-이미지 개인 재식별을 위한 잡음 대응 학습

논문: https://arxiv.org/abs/2308.09911
코드: https://github.com/QinYang79/RDE

확산 모델

InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어

홈페이지: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
논문: https://arxiv.org/abs/2402.03290
코드: https://github.com/frank-xwang/InstanceDiffusion

잔류 노이즈 제거 확산 모델

논문: https://arxiv.org/abs/2308.13712
코드: https://github.com/nachifur/RDDM

DeepCache: 무료로 확산 모델 가속화

논문: https://arxiv.org/abs/2312.00858
코드: https://github.com/horseee/DeepCache

DEADiff: 얽힌 표현을 사용한 효율적인 스타일화 확산 모델

홈페이지: https://tianhao-qi.github.io/DEADiff/
논문: https://arxiv.org/abs/2403.06951
코드: https://github.com/Tianhao-Qi/DEADiff_code

SVGDreamer: 확산 모델을 사용한 텍스트 기반 SVG 생성

논문: https://arxiv.org/abs/2312.16476
코드: https://ximinng.github.io/SVGDreamer-project/

InteractDiffusion: 텍스트-이미지 확산 모델을 위한 상호작용 제어

논문: https://arxiv.org/abs/2312.05849
코드: https://github.com/jiuntian/interactdiffusion

MMA-확산: 확산 모델에 대한 다중 모드 공격

논문: https://arxiv.org/abs/2311.17516
코드: https://github.com/yangyijune/MMA-Diffusion

VMC: 텍스트-비디오 확산 모델에 대한 시간적 주의 적응을 사용한 비디오 모션 사용자 정의

홈오에이지: https://video-motion-customization.github.io/
논문: https://arxiv.org/abs/2312.00845
코드: https://github.com/HyonHo99/Video-Motion-Customization

비전 트랜스포머

TransNeXt: 비전 트랜스포머를 위한 강력한 중심와 시각적 인식

논문: https://arxiv.org/abs/2311.17132
코드: https://github.com/DaiShiResearch/TransNeXt

RepViT: ViT 관점에서 모바일 CNN 재검토

논문: https://arxiv.org/abs/2307.09283
코드: https://github.com/THU-MIG/RepViT

토큰 확장을 통한 Transformer에 대한 일반적이고 효율적인 교육

논문: https://arxiv.org/abs/2404.00672
코드: https://github.com/Osilly/TokenExpansion

비전-언어

PromptKD: 비전 언어 모델을 위한 비지도 프롬프트 증류

논문: https://arxiv.org/abs/2403.02781
코드: https://github.com/zhengli97/PromptKD

FairCLIP: 비전 언어 학습의 공정성 활용

논문: https://arxiv.org/abs/2403.19949
코드: https://github.com/Harvard-Ophalmology-AI-Lab/FairCLIP

객체 감지

DETR은 실시간 객체 감지에서 YOLO를 능가합니다.

논문: https://arxiv.org/abs/2304.08069
코드: https://github.com/lyuwenyu/RT-DETR

제로샷 주야간 도메인 적응으로 객체 감지 강화

논문: https://arxiv.org/abs/2312.01220
코드: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation

YOLO-World: 실시간 개방형 어휘 개체 감지

논문: https://arxiv.org/abs/2401.17270
코드: https://github.com/AILab-CVC/YOLO-World

Salience DETR: 계층적 Salience 필터링 개선을 통해 탐지 변환기 향상

논문: https://arxiv.org/abs/2403.16131
코드: https://github.com/xiuqhou/Salience-DETR

이상 탐지

오픈셋 감독 이상 탐지를 위한 이상 이질성 학습

논문: https://arxiv.org/abs/2310.12790
코드: https://github.com/mala-lab/AHL

객체 추적

다중 객체 추적을 위한 궤적 롱테일 분포 탐구

논문: https://arxiv.org/abs/2403.04700
코드: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT

의미론적 분할

더 강력하고, 더 적고, 더 우수합니다: 도메인 일반화 의미론적 분할을 위한 비전 기반 모델 활용

논문: https://arxiv.org/abs/2312.04265
코드: https://github.com/w1oves/Rein

SED: 개방형 어휘 의미론적 분할을 위한 간단한 인코더-디코더

논문: https://arxiv.org/abs/2311.15537
코드: https://github.com/xb534/SED

의료영상

기능 재임베딩: 전산 병리학의 기초 모델 수준 성능을 향하여

논문: https://arxiv.org/abs/2402.17228
코드: https://github.com/DearCaat/RRT-MIL

VoCo: 3D 의료 영상 분석을 위한 간단하면서도 효과적인 볼륨 대비 학습 프레임워크

논문: https://arxiv.org/abs/2402.17300
코드: https://github.com/Luffy03/VoCo

ChAda-ViT: 이종 현미경 이미지의 공동 표현 학습을 위한 채널 적응형 주의

논문: https://arxiv.org/abs/2311.15264
코드: https://github.com/nicoboou/chada_vit

의료 영상 분할

자율주행

UniPAD: 자율 주행을 위한 보편적인 사전 훈련 패러다임

논문: https://arxiv.org/abs/2310.08370
코드: https://github.com/Nightmare-n/UniPAD

Cam4DOcc: 자율 주행 애플리케이션에서 카메라 전용 4D 점유율 예측을 위한 벤치마크

논문: https://arxiv.org/abs/2311.17663
코드: https://github.com/haomo-ai/Cam4DOcc

온라인 3D 장면 인식을 위한 메모리 기반 어댑터

논문: https://arxiv.org/abs/2403.06974
코드: https://github.com/xuxw98/Online3D

상황별 인스턴스 쿼리를 사용하여 3D 의미론적 장면 완성을 조화시킵니다.

논문: https://arxiv.org/abs/2306.15670
코드: https://github.com/hustvl/Symphony

길가 협동 인식을 위한 실제 대규모 데이터세트

논문: https://arxiv.org/abs/2403.10145
코드: https://github.com/AIR-THU/DAIR-RCooper

자율주행을 위한 싱글뷰와 멀티뷰 깊이의 적응형 융합

논문: https://arxiv.org/abs/2403.07535
코드: https://github.com/Junda24/AFNet

TSP6K 데이터 세트를 통한 교통 장면 구문 분석

논문: https://arxiv.org/pdf/2303.02835.pdf
코드: https://github.com/PengtaoJiang/TSP6K

3D 포인트 클라우드(3D-Point-Cloud)

3D 객체 감지

PTT: 효율적인 시간적 3D 객체 감지를 위한 점-궤적 변환기

논문: https://arxiv.org/abs/2312.08371
코드: https://github.com/kuanchihhuang/PTT

UniMODE: 통합 단안 3D 객체 감지

논문: https://arxiv.org/abs/2402.18573

3D 의미론적 분할

이미지 편집

모두를 위한 하나의 편집: 대화형 배치 이미지 편집

홈페이지: https://thaoshibe.github.io/edit-one-for-all
논문: https://arxiv.org/abs/2401.10219
코드: https://github.com/thaoshibe/edit-one-for-all

비디오 편집

MaskINT: 보간적 비자동회귀 마스크 변환기를 통한 비디오 편집

홈페이지: https://maskint.github.io
논문: https://arxiv.org/abs/2312.12468

낮은 수준의 시력

잔류 노이즈 제거 확산 모델

논문: https://arxiv.org/abs/2308.13712
코드: https://github.com/nachifur/RDDM

사전 훈련된 모델의 사전 변수를 통해 이미지 복원 강화

논문: https://arxiv.org/abs/2403.06793

초해상도

SeD: 이미지 초해상도를 위한 의미 인식 판별기

논문: https://arxiv.org/abs/2402.19387
코드: https://github.com/lbc12345/SeD

APISR: 애니메이션 제작에 영감을 받은 실제 애니메이션 초해상도

논문: https://arxiv.org/abs/2403.01598
코드: https://github.com/Kiteretsu77/APISR

노이즈 제거

이미지 노이즈 제거

3D 인간 자세 추정

효율적인 변압기 기반 3D 인간 자세 추정을 위한 Hourglass Tokenizer

논문: https://arxiv.org/abs/2311.12028
코드: https://github.com/NationalGAILab/HoT

이미지 생성

InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어

홈페이지: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
논문: https://arxiv.org/abs/2402.03290
코드: https://github.com/frank-xwang/InstanceDiffusion

ECLIPSE: 이미지 생성을 위한 리소스 효율적인 텍스트-이미지 변환

홈페이지 : https://eclipse-t2i.vercel.app/
논문: https://arxiv.org/abs/2312.04655
코드: https://github.com/eclipse-t2i/eclipse-inference

Instruct-Imagen: 다중 모드 명령을 사용한 이미지 생성

논문: https://arxiv.org/abs/2401.01952

잔류 노이즈 제거 확산 모델

논문: https://arxiv.org/abs/2308.13712
코드: https://github.com/nachifur/RDDM

UniGS: 이미지 생성 및 분할을 위한 통합 표현

논문: https://arxiv.org/abs/2312.01985

텍스트-이미지 합성을 위한 다중 인스턴스 생성 컨트롤러

논문: https://arxiv.org/abs/2402.05408
코드: https://github.com/limuloo/migc

SVGDreamer: 확산 모델을 사용한 텍스트 기반 SVG 생성

논문: https://arxiv.org/abs/2312.16476
코드: https://ximinng.github.io/SVGDreamer-project/

InteractDiffusion: 텍스트-이미지 확산 모델을 위한 상호작용 제어

논문: https://arxiv.org/abs/2312.05849
코드: https://github.com/jiuntian/interactdiffusion

Ranni: 정확한 프롬프트 팔로우를 위해 텍스트-이미지 확산 길들이기

논문: https://arxiv.org/abs/2311.17002
코드: https://github.com/ali-vilab/Ranni

비디오 생성

동영상 블로거: 꿈을 동영상 블로그로 만드세요

논문: https://arxiv.org/abs/2401.09414
코드: https://github.com/Vchitect/Vlogger

VBench: 비디오 생성 모델을 위한 종합 벤치마크 제품군

홈페이지: https://vchitect.github.io/VBench-project/
논문: https://arxiv.org/abs/2311.17982
코드: https://github.com/Vchitect/VBench

VMC: 텍스트-비디오 확산 모델에 대한 시간적 주의 적응을 사용한 비디오 모션 사용자 정의

홈오에이지: https://video-motion-customization.github.io/
논문: https://arxiv.org/abs/2312.00845
코드: https://github.com/HyonHo99/Video-Motion-Customization

3D 생성

CityDreamer: 무한한 3D 도시의 구성 생성 모델

홈페이지: https://haozhexie.com/project/city-dreamer/
논문: https://arxiv.org/abs/2309.00610
코드: https://github.com/hzxie/city-dreamer

LucidDreamer: 간격 점수 매칭을 통한 고품질 텍스트-3D 생성을 향하여

논문: https://arxiv.org/abs/2311.11284
코드: https://github.com/EnVision-Research/LucidDreamer

영상이해

MVBench: 벤치마크를 이해하는 포괄적인 다중 모드 비디오

논문: https://arxiv.org/abs/2311.17005
코드: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2

지식 증류

지식 증류의 로짓 표준화

논문: https://arxiv.org/abs/2403.01427
코드: https://github.com/sunshangquan/logit-standardization-KD

Minimax Diffusion을 통한 효율적인 데이터 세트 추출

논문: https://arxiv.org/abs/2311.15529
코드: https://github.com/vimar-gu/MinimaxDiffusion

스테레오 매칭

스테레오 매칭을 위한 신경 마르코프 랜덤 필드

논문: https://arxiv.org/abs/2403.11193
코드: https://github.com/aeolusguan/NMRF

장면 그래프 생성

HiKER-SGG: 계층적 지식이 강화된 강력한 장면 그래프 생성

홈페이지: https://zhangce01.github.io/HiKER-SGG/
논문: https://arxiv.org/abs/2403.12033
코드: https://github.com/zhangce01/HiKER-SGG

비디오 품질 평가

KVQ: 단편 비디오에 대한 만화경 비디오 품질 평가

홈페이지: https://lixinustc.github.io/projects/KVQ/
논문: https://arxiv.org/abs/2402.07220
코드: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024

데이터 세트

길가 협동 인식을 위한 실제 대규모 데이터세트

논문: https://arxiv.org/abs/2403.10145
코드: https://github.com/AIR-THU/DAIR-RCooper

TSP6K 데이터 세트를 통한 교통 장면 구문 분석

논문: https://arxiv.org/pdf/2303.02835.pdf
코드: https://github.com/PengtaoJiang/TSP6K

기타

다음 토큰 예측으로서의 객체 인식

논문: https://arxiv.org/abs/2312.02142
코드: https://github.com/kaiyuyue/nxtp

ParameterNet: 모바일 네트워크의 대규모 시각적 사전 훈련에 매개변수만 있으면 됩니다.

논문: https://arxiv.org/abs/2306.14525
코드: https://parameternet.github.io/

혼합된 위치 인코딩을 사용한 원활한 인간 동작 구성

논문: https://arxiv.org/abs/2402.15509
코드: https://github.com/BarqueroGerman/FlowMDM

LL3DA: Omni-3D 이해, 추론 및 계획을 위한 시각적 대화형 지침 조정

홈페이지 : https://ll3da.github.io/
논문: https://arxiv.org/abs/2311.18651
코드: https://github.com/Open3DA/LL3DA

CLOVA: 도구 사용 및 업데이트 기능을 갖춘 Closed-LOop 시각적 도우미

홈페이지: https://clova-tool.github.io/
논문: https://arxiv.org/abs/2312.10908

MoMask: 3D 인간 동작의 생성적 마스크 모델링

논문: https://arxiv.org/abs/2312.00063
코드: https://github.com/EricGuo5513/momask-codes

Amodal Ground Truth 및 야생에서의 완성

홈페이지: https://www.robots.ox.ac.uk/~vgg/research/amodal/
논문: https://arxiv.org/abs/2312.17247
코드: https://github.com/Championchess/Amodal-Completion-in-the-Wild

일관된 설명을 통해 향상된 시각적 접지

논문: https://arxiv.org/abs/2312.04554
코드: https://github.com/uvavision/SelfEQ

ImageNet-D: 확산 합성 개체에 대한 신경망 견고성 벤치마킹

홈페이지: https://chenshuang-zhang.github.io/imagenet_d/
논문: https://arxiv.org/abs/2403.18775
코드: https://github.com/chenshuang-zhang/imagenet_d

합성 인간 그룹 활동을 통해 학습

홈페이지: https://cjerry1243.github.io/M3Act/
논문 https://arxiv.org/abs/2306.16772
코드: https://github.com/cjerry1243/M3Act

주제 간 두뇌 디코딩 프레임워크

홈페이지: https://littlepure2333.github.io/MindBridge/
논문: https://arxiv.org/abs/2404.07850
코드: https://github.com/littlepure2333/MindBridge

하위 전문가의 혼합을 통한 다중 작업 밀도 예측

논문: https://arxiv.org/abs/2403.17749
코드: https://github.com/YuqiYang213/MLoRE

일반화된 범주 발견을 위한 대조 평균 이동 학습

홈페이지 : https://postech-cvlab.github.io/cms/
논문: https://arxiv.org/abs/2404.09451
코드: https://github.com/sua-choi/CMS

확장하다

추가 정보

버전 1.0.0
유형 파이썬
업데이트 시간 2024-12-21
크기 117.95KB
출처 Github