Makalah CVPR 2024 dan Koleksi Proyek Sumber Terbuka (Makalah dengan Kode)
Keputusan CVPR 2024 kini tersedia di OpenReview!
Catatan 1: Setiap orang dipersilakan untuk mengirimkan terbitan dan berbagi makalah CVPR 2024 dan proyek sumber terbuka!
Catatan 2: Untuk detail tentang makalah dari konferensi CV sebelumnya dan makalah CV berkualitas tinggi lainnya serta ulasan komprehensif, silakan lihat: https://github.com/amusi/daily-paper-computer-vision
Selamat memindai kode QR untuk bergabung dengan [CVer Academic Exchange Group], yang merupakan planet pengetahuan AI visi komputer terbesar! Diperbarui setiap hari, bagikan materi pembelajaran terbaru dan tercanggih dalam visi komputer, pengecatan AI, pemrosesan gambar, pembelajaran mendalam, mengemudi otonom, pencitraan medis, dan AIGC sesegera mungkin.
[Direktori makalah sumber terbuka CVPR 2024]
- 3DGS (Percikan Gaussian)
- Avatar
- Tulang punggung
- KLIP
- MAE
- AI yang diwujudkan
- GAN
- GNN
- Model Bahasa Besar Multimodal (MLLM)
- Model Bahasa Besar (LLM)
- NAS
- OCR
- NRF
- DETR
- Mengingatkan
- Model Difusi
- ReID (identifikasi ulang)
- Distribusi ekor panjang (Long-Tail)
- Transformator Visi
- Bahasa Visi
- Pembelajaran dengan pengawasan mandiri
- Augmentasi Data
- Deteksi Objek
- Deteksi Anomali
- Pelacakan target (Pelacakan Visual)
- Segmentasi Semantik
- Segmentasi Instance
- Segmentasi Panoptik
- Citra Medis
- Segmentasi Citra Medis
- Segmentasi Objek Video
- Segmentasi Instans Video
- Merujuk Segmentasi Gambar
- Anyaman Gambar
- Pengeditan Gambar
- Visi Tingkat Rendah
- Resolusi Super
- Mencela
- Debur
- Mengemudi Otonom
- Awan Titik 3D
- Deteksi Objek 3D
- Segmentasi Semantik 3D
- Pelacakan Objek 3D
- Penyelesaian Adegan Semantik 3D (Penyelesaian Adegan Semantik 3D)
- Registrasi 3D
- Estimasi Pose Manusia 3D
- Estimasi Jaring Manusia 3D
- Citra Medis
- Pembuatan Gambar
- Pembuatan Video
- Generasi 3D
- Pemahaman Video
- Deteksi Tindakan
- Deteksi Teks
- Penyulingan Pengetahuan
- Model Pemangkasan
- Kompresi Gambar
- Rekonstruksi 3D
- Estimasi Kedalaman
- Prediksi Lintasan
- Deteksi Jalur
- Keterangan Gambar
- Menjawab Pertanyaan Visual
- Pengenalan Bahasa Isyarat
- Prediksi Video
- Sintesis Tampilan Novel
- Pembelajaran Zero-Shot (pembelajaran tanpa sampel)
- Pencocokan Stereo
- Pencocokan Fitur
- Pembuatan Grafik Pemandangan
- Representasi Neural Implisit
- Penilaian Kualitas Gambar
- Penilaian Kualitas Video
- Kumpulan data
- Tugas Baru
- Yang lain
3DGS (Percikan Gaussian)
Scaffold-GS: Gaussians 3D Terstruktur untuk Rendering Tampilan-Adaptif
- Beranda: https://city-super.github.io/scaffold-gs/
- Makalah: https://arxiv.org/abs/2312.00109
- Kode: https://github.com/city-super/Scaffold-GS
GPS-Gaussian: Percikan Gaussian 3D Bijaksana Piksel yang Dapat Digeneralisasikan untuk Sintesis Tampilan Novel Manusia Secara Real-time
- Beranda: https://shunyuanzheng.github.io/GPS-Gaussian
- Makalah: https://arxiv.org/abs/2312.02155
- Kode: https://github.com/ShunyuanZheng/GPS-Gaussian
GaussianAvatar: Menuju Pemodelan Avatar Manusia yang Realistis dari Satu Video melalui Animatable 3D Gaussians
- Makalah: https://arxiv.org/abs/2312.02134
- Kode: https://github.com/huliangxiao/GaussianAvatar
GaussianEditor: Pengeditan 3D yang Cepat dan Terkendali dengan Gaussian Splatting
- Makalah: https://arxiv.org/abs/2311.14521
- Kode: https://github.com/buaacyw/GaussianEditor
Gaussians 3D yang Dapat Diubah Bentuk untuk Rekonstruksi Pemandangan Dinamis Bermata Fidelitas Tinggi
- Beranda: https://ingra14m.github.io/Deformable-Gaussians/
- Makalah: https://arxiv.org/abs/2309.13101
- Kode: https://github.com/ingra14m/Deformable-3D-Gaussians
SC-GS: Percikan Gaussian dengan Kontrol Jarang untuk Pemandangan Dinamis yang Dapat Diedit
- Beranda: https://yihua7.github.io/SC-GS-web/
- Makalah: https://arxiv.org/abs/2312.14937
- Kode: https://github.com/yihua7/SC-GS
Percikan Fitur Gaussian Ruangwaktu untuk Sintesis Tampilan Dinamis Waktu Nyata
- Beranda: https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Makalah: https://arxiv.org/abs/2312.16812
- Kode: https://github.com/oppo-us-research/SpacetimeGaussians
DNGaussian: Mengoptimalkan Bidang Cahaya Gaussian 3D Tampilan Jarang dengan Normalisasi Kedalaman Global-Lokal
- Beranda: https://fictionarry.github.io/DNGaussian/
- Makalah: https://arxiv.org/abs/2403.06912
- Kode: https://github.com/Fictionarry/DNGaussian
Percikan Gaussian 4D untuk Rendering Pemandangan Dinamis Waktu Nyata
- Makalah: https://arxiv.org/abs/2310.08528
- Kode: https://github.com/hustvl/4DGaussians
GaussianDreamer: Pembuatan Cepat dari Teks ke Gaussians 3D dengan Menjembatani Model Difusi 2D dan 3D
- Makalah: https://arxiv.org/abs/2310.08529
- Kode: https://github.com/hustvl/GaussianDreamer
Avatar
GaussianAvatar: Menuju Pemodelan Avatar Manusia yang Realistis dari Satu Video melalui Animatable 3D Gaussians
- Makalah: https://arxiv.org/abs/2312.02134
- Kode: https://github.com/huliangxiao/GaussianAvatar
Avatar Simulasi Real-Time dari Sensor yang Dipasang di Kepala
- Beranda: https://www.zhengyiluo.com/SimXR/
- Makalah: https://arxiv.org/abs/2403.06862
Tulang punggung
RepViT: Meninjau Kembali CNN Seluler Dari Perspektif ViT
- Makalah: https://arxiv.org/abs/2307.09283
- Kode: https://github.com/THU-MIG/RepViT
TransNeXt: Persepsi Visual Foveal yang Kuat untuk Vision Transformers
- Makalah: https://arxiv.org/abs/2311.17132
- Kode: https://github.com/DaiShiResearch/TransNeXt
KLIP
Alpha-CLIP: Model CLIP yang Berfokus di Manapun Anda Inginkan
- Makalah: https://arxiv.org/abs/2312.03818
- Kode: https://github.com/SunzeY/AlphaCLIP
FairCLIP: Memanfaatkan Keadilan dalam Pembelajaran Bahasa Visi
- Makalah: https://arxiv.org/abs/2403.19949
- Kode: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
MAE
AI yang diwujudkan
EmbodiedScan: Rangkaian Persepsi 3D Multi-Modal Holistik Menuju AI yang Terwujud
- Beranda: https://tai-wang.github.io/embodiedscan/
- Makalah: https://arxiv.org/abs/2312.16170
- Kode: https://github.com/OpenRobotLab/EmbodiedScan
MP5: Sistem Perwujudan Terbuka Multi-modal di Minecraft melalui Persepsi Aktif
- Beranda: https://iranqin.github.io/MP5.github.io/
- Makalah: https://arxiv.org/abs/2312.07472
- Kode: https://github.com/IranQin/MP5
LEMON: Mempelajari Relasi Interaksi Manusia-Objek 3D dari Gambar 2D
- Makalah: https://arxiv.org/abs/2312.08963
- Kode: https://github.com/yyvhang/lemon_3d
GAN
OCR
Studi Empiris Hukum Penskalaan untuk OCR
- Makalah: https://arxiv.org/abs/2401.00028
- Kode: https://github.com/large-ocr-model/large-ocr-model.github.io
ODM: Pendekatan Pra-pelatihan Penyelarasan Lebih Lanjut Gambar Teks untuk Deteksi dan Penentuan Teks Pemandangan
- Makalah: https://arxiv.org/abs/2403.00303
- Kode: https://github.com/PriNing/ODM
NRF
PIE-NeRF?: Elastodinamik Interaktif Berbasis Fisika dengan NeRF
- Makalah: https://arxiv.org/abs/2311.13099
- Kode: https://github.com/FYTalon/pienerf/
DETR
DETR Mengalahkan YOLO dalam Deteksi Objek Real-time
- Makalah: https://arxiv.org/abs/2304.08069
- Kode: https://github.com/lyuwenyu/RT-DETR
Salience DETR: Meningkatkan Transformator Deteksi dengan Penyempurnaan Penyaringan Salience Hirarki
- Makalah: https://arxiv.org/abs/2403.16131
- Kode: https://github.com/xiuqhou/Salience-DETR
Mengingatkan
Model Bahasa Besar Multimodal (MLLM)
mPLUG-Owl2: Merevolusi Model Bahasa Besar Multi-modal dengan Kolaborasi Modalitas
- Makalah: https://arxiv.org/abs/2311.04257
- Kode: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Pembelajaran Link-Konteks untuk LLM Multimodal
- Makalah: https://arxiv.org/abs/2308.07891
- Kode: https://github.com/isekai-portal/Link-Context-Learning/tree/main
OPERA: Mengurangi Halusinasi dalam Model Bahasa Besar Multi-Modal melalui Penalti Kepercayaan Berlebihan dan Alokasi Retrospeksi
- Makalah: https://arxiv.org/abs/2311.17911
- Kode: https://github.com/shikiw/OPERA
Membuat Model Multimodal Besar Memahami Perintah Visual Sewenang-wenang
- Beranda: https://vip-llava.github.io/
- Makalah: https://arxiv.org/abs/2312.00784
Pink: Mengungkap kekuatan pemahaman referensial untuk ilmu multi-modal
- Makalah: https://arxiv.org/abs/2310.00582
- Kode: https://github.com/SY-Xuan/Pink
Chat-UniVi: Representasi Visual Terpadu Memberdayakan Model Bahasa Besar dengan Pemahaman Gambar dan Video
- Makalah: https://arxiv.org/abs/2311.08046
- Kode: https://github.com/PKU-YuanGroup/Chat-UniVi
OneLLM: Satu Kerangka untuk Menyelaraskan Semua Modalitas dengan Bahasa
- Makalah: https://arxiv.org/abs/2312.03700
- Kode: https://github.com/csuhan/OneLLM
Model Bahasa Besar (LLM)
VTimeLLM: Berdayakan LLM untuk Memahami Momen Video
- Makalah: https://arxiv.org/abs/2311.18445
- Kode: https://github.com/huangb23/VTimeLLM
NAS
ReID (identifikasi ulang)
Token Ajaib: Pilih Beragam Token untuk Identifikasi Ulang Objek Multi-modal
- Makalah: https://arxiv.org/abs/2403.10254
- Kode: https://github.com/924973292/EDITOR
Pembelajaran Korespondensi Bising untuk Identifikasi Ulang Orang Teks-ke-Gambar
Model Difusi
InstanceDiffusion: Kontrol tingkat Instance untuk Pembuatan Gambar
Beranda: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Makalah: https://arxiv.org/abs/2402.03290
Kode: https://github.com/frank-xwang/InstanceDiffusion
Model Difusi Denoising Residu
- Makalah: https://arxiv.org/abs/2308.13712
- Kode: https://github.com/nachifur/RDDM
DeepCache: Mempercepat Model Difusi Gratis
- Makalah: https://arxiv.org/abs/2312.00858
- Kode: https://github.com/horseee/DeepCache
DEADiff: Model Difusi Stilisasi yang Efisien dengan Representasi yang Terurai
Beranda: https://tianhao-qi.github.io/DEADiff/
Makalah: https://arxiv.org/abs/2403.06951
Kode: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: Pembuatan SVG yang Dipandu Teks dengan Model Difusi
- Makalah: https://arxiv.org/abs/2312.16476
- Kode: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: Kontrol Interaksi untuk Model Difusi Teks-ke-Gambar
- Makalah: https://arxiv.org/abs/2312.05849
- Kode: https://github.com/jiuntian/interactdiffusion
Difusi MMA: Serangan MultiModal pada Model Difusi
- Makalah: https://arxiv.org/abs/2311.17516
- Kode: https://github.com/yangyijune/MMA-Diffusion
VMC: Kustomisasi Gerakan Video menggunakan Adaptasi Perhatian Temporal untuk Model Difusi Teks-ke-Video
- Beranda: https://video-motion-customization.github.io/
- Makalah: https://arxiv.org/abs/2312.00845
- Kode: https://github.com/HyeonHo99/Video-Motion-Customization
Transformator Visi
TransNeXt: Persepsi Visual Foveal yang Kuat untuk Vision Transformers
- Makalah: https://arxiv.org/abs/2311.17132
- Kode: https://github.com/DaiShiResearch/TransNeXt
RepViT: Meninjau Kembali CNN Seluler Dari Perspektif ViT
- Makalah: https://arxiv.org/abs/2307.09283
- Kode: https://github.com/THU-MIG/RepViT
Pelatihan Umum dan Efisien untuk Transformer melalui Ekspansi Token
- Makalah: https://arxiv.org/abs/2404.00672
- Kode: https://github.com/Osilly/TokenExpansion
Bahasa Visi
PromptKD: Distilasi Cepat Tanpa Pengawasan untuk Model Bahasa Penglihatan
- Makalah: https://arxiv.org/abs/2403.02781
- Kode: https://github.com/zhengli97/PromptKD
FairCLIP: Memanfaatkan Keadilan dalam Pembelajaran Bahasa Visi
- Makalah: https://arxiv.org/abs/2403.19949
- Kode: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
Deteksi Objek
DETR Mengalahkan YOLO dalam Deteksi Objek Real-time
- Makalah: https://arxiv.org/abs/2304.08069
- Kode: https://github.com/lyuwenyu/RT-DETR
Meningkatkan Deteksi Objek dengan Adaptasi Domain Siang-Malam Zero-Shot
- Makalah: https://arxiv.org/abs/2312.01220
- Kode: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation
YOLO-World: Deteksi Objek Kosakata Terbuka Waktu Nyata
- Makalah: https://arxiv.org/abs/2401.17270
- Kode: https://github.com/AILab-CVC/YOLO-World
Salience DETR: Meningkatkan Transformator Deteksi dengan Penyempurnaan Penyaringan Salience Hirarki
- Makalah: https://arxiv.org/abs/2403.16131
- Kode: https://github.com/xiuqhou/Salience-DETR
Deteksi Anomali
Pembelajaran Heterogenitas Anomali untuk Deteksi Anomali Terbimbing Open-set
- Makalah: https://arxiv.org/abs/2310.12790
- Kode: https://github.com/mala-lab/AHL
Pelacakan Objek
Menggali Distribusi Ekor Panjang Lintasan untuk Pelacakan Muti-objek
- Makalah: https://arxiv.org/abs/2403.04700
- Kode: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
Segmentasi Semantik
Lebih Kuat, Lebih Sedikit, & Unggul: Memanfaatkan Model Landasan Visi untuk Segmentasi Semantik Umum Domain
- Makalah: https://arxiv.org/abs/2312.04265
- Kode: https://github.com/w1oves/Rein
SED: Encoder-Decoder Sederhana untuk Segmentasi Semantik Kosakata Terbuka
- Makalah: https://arxiv.org/abs/2311.15537
- Kode: https://github.com/xb534/SED
Citra Medis
Penyematan Ulang Fitur: Menuju Performa Tingkat Model Fondasi dalam Patologi Komputasi
- Makalah: https://arxiv.org/abs/2402.17228
- Kode: https://github.com/DearCaat/RRT-MIL
VoCo: Kerangka Pembelajaran Kontrastif Volume yang Sederhana namun Efektif untuk Analisis Gambar Medis 3D
- Makalah: https://arxiv.org/abs/2402.17300
- Kode: https://github.com/Luffy03/VoCo
ChAda-ViT : Menyalurkan Perhatian Adaptif untuk Pembelajaran Representasi Bersama Gambar Mikroskopi Heterogen
- Makalah: https://arxiv.org/abs/2311.15264
- Kode: https://github.com/nicoboou/chada_vit
Segmentasi Citra Medis
Mengemudi Otonom
UniPAD: Paradigma Pra-pelatihan Universal untuk Mengemudi Otonom
- Makalah: https://arxiv.org/abs/2310.08370
- Kode: https://github.com/Nightmare-n/UniPAD
Cam4DOcc: Tolok Ukur untuk Perkiraan Hunian 4D Hanya Kamera dalam Aplikasi Mengemudi Otonom
- Makalah: https://arxiv.org/abs/2311.17663
- Kode: https://github.com/haomo-ai/Cam4DOcc
Adaptor berbasis memori untuk Persepsi Pemandangan 3D Online
- Makalah: https://arxiv.org/abs/2403.06974
- Kode: https://github.com/xuxw98/Online3D
Simfoni Penyelesaian Adegan Semantik 3D dengan Kueri Instans Kontekstual
- Makalah: https://arxiv.org/abs/2306.15670
- Kode: https://github.com/hustvl/Symphonies
Kumpulan Data Skala Besar Dunia Nyata untuk Persepsi Koperasi Pinggir Jalan
- Makalah: https://arxiv.org/abs/2403.10145
- Kode: https://github.com/AIR-THU/DAIR-RCooper
Perpaduan Adaptif Kedalaman Tampilan Tunggal dan Multi-Tampilan untuk Mengemudi Otonom
- Makalah: https://arxiv.org/abs/2403.07535
- Kode: https://github.com/Junda24/AFNet
Parsing Adegan Lalu Lintas melalui Dataset TSP6K
- Makalah: https://arxiv.org/pdf/2303.02835.pdf
- Kode: https://github.com/PengtaoJiang/TSP6K
Awan titik 3D (Awan Titik 3D)
Deteksi Objek 3D
PTT: Transformator Lintasan Titik untuk Deteksi Objek 3D Temporal yang Efisien
- Makalah: https://arxiv.org/abs/2312.08371
- Kode: https://github.com/kuanchihhuang/PTT
UniMODE: Deteksi Objek 3D Bermata Terpadu
- Makalah: https://arxiv.org/abs/2402.18573
Segmentasi Semantik 3D
Pengeditan Gambar
Edit Satu untuk Semua: Pengeditan Gambar Batch Interaktif
- Beranda: https://thaoshibe.github.io/edit-one-for-all
- Makalah: https://arxiv.org/abs/2401.10219
- Kode: https://github.com/thaoshibe/edit-one-for-all
Pengeditan Video
MaskINT: Pengeditan Video melalui Masked Transformers Interpolatif Non-autoregresif
Visi Tingkat Rendah
Model Difusi Denoising Residu
- Makalah: https://arxiv.org/abs/2308.13712
- Kode: https://github.com/nachifur/RDDM
Meningkatkan Pemulihan Gambar melalui Priors dari Model Terlatih
- Makalah: https://arxiv.org/abs/2403.06793
Resolusi Super
SeD: Diskriminator Sadar Semantik untuk Resolusi Super Gambar
- Makalah: https://arxiv.org/abs/2402.19387
- Kode: https://github.com/lbc12345/SeD
APISR: Produksi Anime yang Menginspirasi Resolusi Super Anime Dunia Nyata
- Makalah: https://arxiv.org/abs/2403.01598
- Kode: https://github.com/Kiteretsu77/APISR
Mencela
Penyangkalan Gambar
Estimasi Pose Manusia 3D
Hourglass Tokenizer untuk Estimasi Pose Manusia 3D Berbasis Transformator yang Efisien
- Makalah: https://arxiv.org/abs/2311.12028
- Kode: https://github.com/NationalGAILab/HoT
Pembuatan Gambar
InstanceDiffusion: Kontrol tingkat Instance untuk Pembuatan Gambar
Beranda: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Makalah: https://arxiv.org/abs/2402.03290
Kode: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: Prioritas Text-to-Image yang Efisien Sumber Daya untuk Pembuatan Gambar
Beranda: https://eclipse-t2i.vercel.app/
Makalah: https://arxiv.org/abs/2312.04655
Kode: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: Pembuatan Gambar dengan Instruksi Multi-modal
- Makalah: https://arxiv.org/abs/2401.01952
Model Difusi Denoising Residu
- Makalah: https://arxiv.org/abs/2308.13712
- Kode: https://github.com/nachifur/RDDM
UniGS: Representasi Terpadu untuk Pembuatan dan Segmentasi Gambar
- Makalah: https://arxiv.org/abs/2312.01985
Pengontrol Pembuatan Multi-Instance untuk Sintesis Teks-ke-Gambar
- Makalah: https://arxiv.org/abs/2402.05408
- Kode: https://github.com/limuloo/migrc
SVGDreamer: Pembuatan SVG yang Dipandu Teks dengan Model Difusi
- Makalah: https://arxiv.org/abs/2312.16476
- Kode: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: Kontrol Interaksi untuk Model Difusi Teks-ke-Gambar
- Makalah: https://arxiv.org/abs/2312.05849
- Kode: https://github.com/jiuntian/interactdiffusion
Ranni: Menjinakkan Difusi Teks-ke-Gambar untuk Pengikutan Cepat yang Akurat
- Makalah: https://arxiv.org/abs/2311.17002
- Kode: https://github.com/ali-vilab/Ranni
Pembuatan Video
Vlogger: Wujudkan Impian Anda Menjadi Vlog
- Makalah: https://arxiv.org/abs/2401.09414
- Kode: https://github.com/Vchitect/Vlogger
VBench: Rangkaian Tolok Ukur Komprehensif untuk Model Generatif Video
- Beranda: https://vchitect.github.io/VBench-project/
- Makalah: https://arxiv.org/abs/2311.17982
- Kode: https://github.com/Vchitect/VBench
VMC: Kustomisasi Gerakan Video menggunakan Adaptasi Perhatian Temporal untuk Model Difusi Teks-ke-Video
- Beranda: https://video-motion-customization.github.io/
- Makalah: https://arxiv.org/abs/2312.00845
- Kode: https://github.com/HyeonHo99/Video-Motion-Customization
generasi 3D
CityDreamer: Model Generatif Komposisi Kota 3D Tanpa Batas
- Beranda: https://haozhexie.com/project/city-dreamer/
- Makalah: https://arxiv.org/abs/2309.00610
- Kode: https://github.com/hzxie/city-dreamer
LucidDreamer: Menuju Pembuatan Teks-ke-3D dengan Fidelitas Tinggi melalui Pencocokan Skor Interval
- Makalah: https://arxiv.org/abs/2311.11284
- Kode: https://github.com/EnVision-Research/LucidDreamer
Pemahaman Video
MVBench: Tolok Ukur Pemahaman Video Multi-modal yang Komprehensif
- Makalah: https://arxiv.org/abs/2311.17005
- Kode: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
Penyulingan Pengetahuan
Standardisasi Logit dalam Penyulingan Pengetahuan
- Makalah: https://arxiv.org/abs/2403.01427
- Kode: https://github.com/sunshangquan/logit-standardization-KD
Distilasi Kumpulan Data yang Efisien melalui Difusi Minimax
- Makalah: https://arxiv.org/abs/2311.15529
- Kode: https://github.com/vimar-gu/MinimaxDiffusion
Pencocokan Stereo
Bidang Acak Neural Markov untuk Pencocokan Stereo
- Makalah: https://arxiv.org/abs/2403.11193
- Kode: https://github.com/aeolusguan/NMRF
Pembuatan Grafik Pemandangan
HiKER-SGG: Pengetahuan Hierarki yang Meningkatkan Pembuatan Grafik Pemandangan yang Kuat
- Beranda: https://zhangce01.github.io/HiKER-SGG/
- Makalah: https://arxiv.org/abs/2403.12033
- Kode: https://github.com/zhangce01/HiKER-SGG
Penilaian Kualitas Video
KVQ: Penilaian Kualitas Video Kaleidoskop untuk Video Berdurasi Pendek
Beranda: https://lixinustc.github.io/projects/KVQ/
Makalah: https://arxiv.org/abs/2402.07220
Kode: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
Kumpulan data
Kumpulan Data Skala Besar Dunia Nyata untuk Persepsi Koperasi Pinggir Jalan
- Makalah: https://arxiv.org/abs/2403.10145
- Kode: https://github.com/AIR-THU/DAIR-RCooper
Parsing Adegan Lalu Lintas melalui Dataset TSP6K
- Makalah: https://arxiv.org/pdf/2303.02835.pdf
- Kode: https://github.com/PengtaoJiang/TSP6K
Yang lain
Pengenalan Objek sebagai Prediksi Token Berikutnya
- Makalah: https://arxiv.org/abs/2312.02142
- Kode: https://github.com/kaiyuyue/nxtp
ParameterNet: Hanya Parameter yang Anda Butuhkan untuk Pra-Pelatihan Visual Jaringan Seluler Berskala Besar
- Makalah: https://arxiv.org/abs/2306.14525
- Kode: https://parameternet.github.io/
Komposisi Gerakan Manusia Mulus dengan Pengkodean Posisi Campuran
- Makalah: https://arxiv.org/abs/2402.15509
- Kode: https://github.com/BarqueroGerman/FlowMDM
LL3DA: Penyetelan Instruksi Interaktif Visual untuk Pemahaman, Penalaran, dan Perencanaan Omni-3D
Beranda: https://ll3da.github.io/
Makalah: https://arxiv.org/abs/2311.18651
Kode: https://github.com/Open3DA/LL3DA
CLOVA: Asisten Visual LOop Tertutup dengan Penggunaan dan Pembaruan Alat
- Beranda: https://clova-tool.github.io/
- Makalah: https://arxiv.org/abs/2312.10908
MoMask: Pemodelan Bertopeng Generatif dari Gerakan Manusia 3D
- Makalah: https://arxiv.org/abs/2312.00063
- Kode: https://github.com/EricGuo5513/momask-codes
Kebenaran dan Penyelesaian Dasar Amodal di Alam Liar
- Beranda: https://www.robots.ox.ac.uk/~vgg/research/amodal/
- Makalah: https://arxiv.org/abs/2312.17247
- Kode: https://github.com/Championchess/Amodal-Completion-in-the-Wild
Peningkatan Landasan Visual melalui Penjelasan yang Konsisten Sendiri
- Makalah: https://arxiv.org/abs/2312.04554
- Kode: https://github.com/uvavision/SelfEQ
ImageNet-D: Membandingkan Kekokohan Jaringan Neural pada Objek Sintetis Difusi
- Beranda: https://chenshuang-zhang.github.io/imagenet_d/
- Makalah: https://arxiv.org/abs/2403.18775
- Kode: https://github.com/chenshuang-zhang/imagenet_d
Belajar dari Aktivitas Kelompok Manusia Sintetis
- Beranda: https://cjerry1243.github.io/M3Act/
- Makalah https://arxiv.org/abs/2306.16772
- Kode: https://github.com/cjerry1243/M3Act
Kerangka Decoding Otak Lintas Subjek
- Beranda: https://littlepure2333.github.io/MindBridge/
- Makalah: https://arxiv.org/abs/2404.07850
- Kode: https://github.com/littlepure2333/MindBridge
Prediksi Padat Multi-Tugas melalui Campuran Pakar Tingkat Rendah
- Makalah: https://arxiv.org/abs/2403.17749
- Kode: https://github.com/YuqiYang213/MLoRE
Pembelajaran Pergeseran Rata-rata Kontrastif untuk Penemuan Kategori Umum
- Beranda: https://postech-cvlab.github.io/cms/
- Makalah: https://arxiv.org/abs/2404.09451
- Kode: https://github.com/sua-choi/CMS