CVPR 2024-Papiere und Open-Source-Projektsammlung (Papiere mit Code)
CVPR 2024-Entscheidungen sind jetzt auf OpenReview verfügbar!
Hinweis 1: Jeder ist herzlich eingeladen, Probleme einzureichen und CVPR 2024-Papiere und Open-Source-Projekte zu teilen!
Hinweis 2: Einzelheiten zu Beiträgen früherer CV-Konferenzen und anderen hochwertigen CV-Papieren und umfassenden Rezensionen finden Sie unter: https://github.com/amusi/daily-paper-computer-vision
Willkommen beim Scannen des QR-Codes, um der [CVer Academic Exchange Group] beizutreten, dem größten Computer-Vision-KI-Wissensplaneten! Täglich aktualisiert, teilen Sie so schnell wie möglich die neuesten und modernsten Lernmaterialien in den Bereichen Computer Vision, KI-Malerei, Bildverarbeitung, Deep Learning, autonomes Fahren, medizinische Bildgebung und AIGC.
[CVPR 2024 Open-Source-Papierverzeichnis]
- 3DGS (Gaussian Splatting)
- Avatare
- Rückgrat
- CLIP
- MAE
- Verkörperte KI
- GAN
- GNN
- Multimodales großes Sprachmodell (MLLM)
- Großes Sprachmodell (LLM)
- NAS
- OCR
- NRF
- DETR
- Prompt
- Diffusionsmodelle
- ReID (Neuidentifizierung)
- Long-Tail-Verteilung (Long-Tail)
- Vision-Transformer
- Vision-Sprache
- Selbstüberwachtes Lernen
- Datenerweiterung
- Objekterkennung
- Anomalieerkennung
- Zielverfolgung (Visual Tracking)
- Semantische Segmentierung
- Instanzsegmentierung
- Panoptische Segmentierung
- Medizinisches Bild
- Medizinische Bildsegmentierung
- Segmentierung von Videoobjekten
- Segmentierung von Videoinstanzen
- Verweisende Bildsegmentierung
- Bildmattierung
- Bildbearbeitung
- Low-Level-Vision
- Superauflösung
- Rauschunterdrückung
- Unschärfe
- Autonomes Fahren
- 3D-Punktwolke
- 3D-Objekterkennung
- Semantische 3D-Segmentierung
- 3D-Objektverfolgung
- 3D-semantische Szenenvervollständigung (3D-semantische Szenenvervollständigung)
- 3D-Registrierung
- 3D-Schätzung der menschlichen Pose
- 3D-Human-Mesh-Schätzung
- Medizinisches Bild
- Bilderzeugung
- Videogenerierung
- 3D-Generierung
- Videoverständnis
- Aktionserkennung
- Texterkennung
- Wissensdestillation
- Modellschnitt
- Bildkomprimierung
- 3D-Rekonstruktion
- Tiefenschätzung
- Flugbahnvorhersage
- Spurerkennung
- Bildunterschrift
- Visuelle Beantwortung von Fragen
- Gebärdenspracherkennung
- Videovorhersage
- Neuartige Ansichtssynthese
- Zero-Shot-Lernen (Null-Beispiel-Lernen)
- Stereo-Anpassung
- Feature-Matching
- Generierung von Szenendiagrammen
- Implizite neuronale Darstellungen
- Bewertung der Bildqualität
- Bewertung der Videoqualität
- Datensätze
- Neue Aufgaben
- Andere
3DGS (Gaussian Splatting)
Scaffold-GS: Strukturierte 3D-Gauß-Funktionen für ansichtsadaptives Rendering
- Homepage: https://city-super.github.io/scaffold-gs/
- Papier: https://arxiv.org/abs/2312.00109
- Code: https://github.com/city-super/Scaffold-GS
GPS-Gaussian: Verallgemeinerbares pixelweises 3D-Gauß-Splatting für die Synthese menschlicher Romanansichten in Echtzeit
- Homepage: https://shunyuanzheng.github.io/GPS-Gaussian
- Papier: https://arxiv.org/abs/2312.02155
- Code: https://github.com/ShunyuanZheng/GPS-Gaussian
GaussianAvatar: Auf dem Weg zu einer realistischen menschlichen Avatar-Modellierung aus einem einzigen Video über animierbare 3D-Gauß-Funktionen
- Papier: https://arxiv.org/abs/2312.02134
- Code: https://github.com/huliangxiao/GaussianAvatar
GaussianEditor: Schnelle und kontrollierbare 3D-Bearbeitung mit Gaussian Splatting
- Papier: https://arxiv.org/abs/2311.14521
- Code: https://github.com/buaacyw/GaussianEditor
Verformbare 3D-Gaußkurven für die hochauflösende monokulare dynamische Szenenrekonstruktion
- Homepage: https://ingra14m.github.io/Deformable-Gaussians/
- Papier: https://arxiv.org/abs/2309.13101
- Code: https://github.com/ingra14m/Deformable-3D-Gaussians
SC-GS: Sparse-kontrolliertes Gaußsches Splatting für bearbeitbare dynamische Szenen
- Homepage: https://yihua7.github.io/SC-GS-web/
- Papier: https://arxiv.org/abs/2312.14937
- Code: https://github.com/yihua7/SC-GS
Gaußsches Feature-Splatting in der Raumzeit für die Synthese dynamischer Ansichten in Echtzeit
- Homepage: https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Papier: https://arxiv.org/abs/2312.16812
- Code: https://github.com/oppo-us-research/SpacetimeGaussians
DNGaussian: Optimierung von Sparse-View-3D-Gaußschen Strahlungsfeldern mit global-lokaler Tiefennormalisierung
- Homepage: https://fictionarry.github.io/DNGaussian/
- Papier: https://arxiv.org/abs/2403.06912
- Code: https://github.com/Fictionarry/DNGaussian
4D-Gaußsches Splatting für dynamisches Szenenrendering in Echtzeit
- Papier: https://arxiv.org/abs/2310.08528
- Code: https://github.com/hustvl/4DGaussians
GaussianDreamer: Schnelle Generierung von Text zu 3D-Gaußfunktionen durch Überbrückung von 2D- und 3D-Diffusionsmodellen
- Papier: https://arxiv.org/abs/2310.08529
- Code: https://github.com/hustvl/GaussianDreamer
Avatare
GaussianAvatar: Auf dem Weg zur realistischen menschlichen Avatar-Modellierung aus einem einzigen Video über animierbare 3D-Gauß-Funktionen
- Papier: https://arxiv.org/abs/2312.02134
- Code: https://github.com/huliangxiao/GaussianAvatar
Simulierter Avatar in Echtzeit durch am Kopf montierte Sensoren
- Homepage: https://www.zhengyiluo.com/SimXR/
- Papier: https://arxiv.org/abs/2403.06862
Rückgrat
RepViT: Überarbeitung von Mobile CNN aus ViT-Perspektive
- Papier: https://arxiv.org/abs/2307.09283
- Code: https://github.com/THU-MIG/RepViT
TransNeXt: Robuste foveale visuelle Wahrnehmung für Vision Transformer
- Papier: https://arxiv.org/abs/2311.17132
- Code: https://github.com/DaiShiResearch/TransNeXt
CLIP
Alpha-CLIP: Ein CLIP-Modell, das sich darauf konzentriert, wo immer Sie wollen
- Papier: https://arxiv.org/abs/2312.03818
- Code: https://github.com/SunzeY/AlphaCLIP
FairCLIP: Fairness beim Vision-Language-Lernen nutzen
- Papier: https://arxiv.org/abs/2403.19949
- Code: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
MAE
Verkörperte KI
EmbodiedScan: Eine ganzheitliche multimodale 3D-Wahrnehmungssuite für verkörperte KI
- Homepage: https://tai-wang.github.io/embodiedscan/
- Papier: https://arxiv.org/abs/2312.16170
- Code: https://github.com/OpenRobotLab/EmbodiedScan
MP5: Ein multimodales, offenes verkörpertes System in Minecraft über Active Perception
- Homepage: https://iranqin.github.io/MP5.github.io/
- Papier: https://arxiv.org/abs/2312.07472
- Code: https://github.com/IranQin/MP5
LEMON: Lernen der 3D-Mensch-Objekt-Interaktionsbeziehung aus 2D-Bildern
- Papier: https://arxiv.org/abs/2312.08963
- Code: https://github.com/yyvhang/lemon_3d
GAN
OCR
Eine empirische Studie zum Skalierungsgesetz für OCR
- Papier: https://arxiv.org/abs/2401.00028
- Code: https://github.com/large-ocr-model/large-ocr-model.github.io
ODM: Ein Ansatz zur weiteren Text-Bild-Ausrichtung vor dem Training zur Erkennung und Erkennung von Szenentexten
- Papier: https://arxiv.org/abs/2403.00303
- Code: https://github.com/PriNing/ODM
NRF
PIE-NeRF?: Physikbasierte interaktive Elastodynamik mit NeRF
- Papier: https://arxiv.org/abs/2311.13099
- Code: https://github.com/FYTalon/pienerf/
DETR
DETRs schlagen YOLOs bei der Echtzeit-Objekterkennung
- Papier: https://arxiv.org/abs/2304.08069
- Code: https://github.com/lyuwenyu/RT-DETR
Salience DETR: Verbesserung des Erkennungstransformators durch hierarchische Verfeinerung der Salience-Filterung
- Papier: https://arxiv.org/abs/2403.16131
- Code: https://github.com/xiuqhou/Salience-DETR
Prompt
Multimodales großes Sprachmodell (MLLM)
mPLUG-Owl2: Revolutionierung des multimodalen großen Sprachmodells mit Modalitätskooperation
- Papier: https://arxiv.org/abs/2311.04257
- Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Link-Kontext-Lernen für multimodale LLMs
- Papier: https://arxiv.org/abs/2308.07891
- Code: https://github.com/isekai-portal/Link-Context-Learning/tree/main
OPERA: Linderung von Halluzinationen in multimodalen großen Sprachmodellen durch übermäßige Vertrauensstrafe und Retrospektion-Zuweisung
- Papier: https://arxiv.org/abs/2311.17911
- Code: https://github.com/shikiw/OPERA
Große multimodale Modelle dazu bringen, willkürliche visuelle Eingabeaufforderungen zu verstehen
- Homepage: https://vip-llava.github.io/
- Papier: https://arxiv.org/abs/2312.00784
Pink: Enthüllung der Kraft des referenziellen Verständnisses für multimodale Filme
- Papier: https://arxiv.org/abs/2310.00582
- Code: https://github.com/SY-Xuan/Pink
Chat-UniVi: Einheitliche visuelle Darstellung unterstützt große Sprachmodelle mit Bild- und Videoverständnis
- Papier: https://arxiv.org/abs/2311.08046
- Code: https://github.com/PKU-YuanGroup/Chat-UniVi
OneLLM: Ein Framework zur Ausrichtung aller Modalitäten auf die Sprache
- Papier: https://arxiv.org/abs/2312.03700
- Code: https://github.com/csuhan/OneLLM
Großes Sprachmodell (LLM)
VTimeLLM: Ermöglichen Sie LLM, Videomomente zu erfassen
- Papier: https://arxiv.org/abs/2311.18445
- Code: https://github.com/huangb23/VTimeLLM
NAS
ReID (Neuidentifizierung)
Magische Token: Wählen Sie verschiedene Token für die multimodale Neuidentifizierung von Objekten aus
- Papier: https://arxiv.org/abs/2403.10254
- Code: https://github.com/924973292/EDITOR
Noisy-Correspondence-Lernen zur Text-zu-Bild-Personenreidentifizierung
Diffusionsmodelle
InstanceDiffusion: Kontrolle auf Instanzebene für die Bildgenerierung
Homepage: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Papier: https://arxiv.org/abs/2402.03290
Code: https://github.com/frank-xwang/InstanceDiffusion
Rest-Rauschunterdrückungs-Diffusionsmodelle
- Papier: https://arxiv.org/abs/2308.13712
- Code: https://github.com/nachifur/RDDM
DeepCache: Kostenlose Beschleunigung von Diffusionsmodellen
- Papier: https://arxiv.org/abs/2312.00858
- Code: https://github.com/horseee/DeepCache
DEADiff: Ein effizientes Stilisierungsdiffusionsmodell mit entwirrten Darstellungen
Homepage: https://tianhao-qi.github.io/DEADiff/
Papier: https://arxiv.org/abs/2403.06951
Code: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: Textgesteuerte SVG-Generierung mit Diffusionsmodell
- Papier: https://arxiv.org/abs/2312.16476
- Code: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: Interaktionskontrolle für das Text-zu-Bild-Diffusionsmodell
- Papier: https://arxiv.org/abs/2312.05849
- Code: https://github.com/jiuntian/interactdiffusion
MMA-Diffusion: Multimodaler Angriff auf Diffusionsmodelle
- Papier: https://arxiv.org/abs/2311.17516
- Code: https://github.com/yangyijune/MMA-Diffusion
VMC: Videobewegungsanpassung mithilfe zeitlicher Aufmerksamkeitsanpassung für Text-zu-Video-Diffusionsmodelle
- Startseite: https://video-motion-customization.github.io/
- Papier: https://arxiv.org/abs/2312.00845
- Code: https://github.com/HyeonHo99/Video-Motion-Customization
Vision-Transformer
TransNeXt: Robuste foveale visuelle Wahrnehmung für Vision Transformer
- Papier: https://arxiv.org/abs/2311.17132
- Code: https://github.com/DaiShiResearch/TransNeXt
RepViT: Überarbeitung von Mobile CNN aus ViT-Perspektive
- Papier: https://arxiv.org/abs/2307.09283
- Code: https://github.com/THU-MIG/RepViT
Ein allgemeines und effizientes Training für Transformer per Token-Erweiterung
- Papier: https://arxiv.org/abs/2404.00672
- Code: https://github.com/Osilly/TokenExpansion
Vision-Sprache
PromptKD: Unüberwachte Prompt-Destillation für Vision-Language-Modelle
- Papier: https://arxiv.org/abs/2403.02781
- Code: https://github.com/zhengli97/PromptKD
FairCLIP: Fairness beim Vision-Language-Lernen nutzen
- Papier: https://arxiv.org/abs/2403.19949
- Code: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
Objekterkennung
DETRs schlagen YOLOs bei der Echtzeit-Objekterkennung
- Papier: https://arxiv.org/abs/2304.08069
- Code: https://github.com/lyuwenyu/RT-DETR
Verbessern Sie die Objekterkennung durch Zero-Shot-Tag-Nacht-Domänenanpassung
- Papier: https://arxiv.org/abs/2312.01220
- Code: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation
YOLO-World: Echtzeit-Objekterkennung mit offenem Vokabular
- Papier: https://arxiv.org/abs/2401.17270
- Code: https://github.com/AILab-CVC/YOLO-World
Salience DETR: Verbesserung des Erkennungstransformators durch hierarchische Verfeinerung der Salience-Filterung
- Papier: https://arxiv.org/abs/2403.16131
- Code: https://github.com/xiuqhou/Salience-DETR
Anomalieerkennung
Anomalie-Heterogenitätslernen für die überwachte Anomalieerkennung im offenen Satz
- Papier: https://arxiv.org/abs/2310.12790
- Code: https://github.com/mala-lab/AHL
Objektverfolgung
Eintauchen in die Trajectory Long-Tail-Verteilung für die Verfolgung mehrerer Objekte
- Papier: https://arxiv.org/abs/2403.04700
- Code: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
Semantische Segmentierung
Stärker, weniger und überlegen: Nutzung von Vision Foundation-Modellen für die domänenverallgemeinerte semantische Segmentierung
- Papier: https://arxiv.org/abs/2312.04265
- Code: https://github.com/w1oves/Rein
SED: Ein einfacher Encoder-Decoder für die semantische Segmentierung mit offenem Vokabular
- Papier: https://arxiv.org/abs/2311.15537
- Code: https://github.com/xb534/SED
Medizinisches Bild
Neueinbettung von Funktionen: Auf dem Weg zur Leistung auf Basismodellebene in der Computerpathologie
- Papier: https://arxiv.org/abs/2402.17228
- Code: https://github.com/DearCaat/RRT-MIL
VoCo: Ein einfaches, aber effektives volumenkontrastives Lernframework für die medizinische 3D-Bildanalyse
- Papier: https://arxiv.org/abs/2402.17300
- Code: https://github.com/Luffy03/VoCo
ChAda-ViT: Kanaladaptive Aufmerksamkeit für das gemeinsame Repräsentationslernen heterogener Mikroskopiebilder
- Papier: https://arxiv.org/abs/2311.15264
- Code: https://github.com/nicoboou/chada_vit
Medizinische Bildsegmentierung
Autonomes Fahren
UniPAD: Ein universelles Pre-Training-Paradigma für autonomes Fahren
- Papier: https://arxiv.org/abs/2310.08370
- Code: https://github.com/Nightmare-n/UniPAD
Cam4DOcc: Benchmark für die reine Kamera-4D-Belegungsprognose in autonomen Fahranwendungen
- Papier: https://arxiv.org/abs/2311.17663
- Code: https://github.com/haomo-ai/Cam4DOcc
Speicherbasierte Adapter für die Online-3D-Szenenwahrnehmung
- Papier: https://arxiv.org/abs/2403.06974
- Code: https://github.com/xuxw98/Online3D
Symphonisieren Sie die Vervollständigung semantischer 3D-Szenen mit kontextbezogenen Instanzabfragen
- Papier: https://arxiv.org/abs/2306.15670
- Code: https://github.com/hustvl/Symphonies
Ein realer, groß angelegter Datensatz zur kooperativen Wahrnehmung am Straßenrand
- Papier: https://arxiv.org/abs/2403.10145
- Code: https://github.com/AIR-THU/DAIR-RCooper
Adaptive Fusion von Single-View- und Multi-View-Tiefe für autonomes Fahren
- Papier: https://arxiv.org/abs/2403.07535
- Code: https://github.com/Junda24/AFNet
Analyse der Verkehrsszene durch den TSP6K-Datensatz
- Papier: https://arxiv.org/pdf/2303.02835.pdf
- Code: https://github.com/PengtaoJiang/TSP6K
3D-Punktwolke (3D-Punktwolke)
3D-Objekterkennung
PTT: Punkt-Trajektorien-Transformator zur effizienten zeitlichen 3D-Objekterkennung
- Papier: https://arxiv.org/abs/2312.08371
- Code: https://github.com/kuanchihhuang/PTT
UniMODE: Einheitliche monokulare 3D-Objekterkennung
- Papier: https://arxiv.org/abs/2402.18573
Semantische 3D-Segmentierung
Bildbearbeitung
Edit One for All: Interaktive Stapelbildbearbeitung
- Homepage: https://thaoshibe.github.io/edit-one-for-all
- Papier: https://arxiv.org/abs/2401.10219
- Code: https://github.com/thaoshibe/edit-one-for-all
Videobearbeitung
MaskINT: Videobearbeitung über interpolative, nicht autoregressive maskierte Transformatoren
Low-Level-Vision
Rest-Rauschunterdrückungs-Diffusionsmodelle
- Papier: https://arxiv.org/abs/2308.13712
- Code: https://github.com/nachifur/RDDM
Steigerung der Bildwiederherstellung durch Priors aus vorab trainierten Modellen
- Papier: https://arxiv.org/abs/2403.06793
Superauflösung
SeD: Semantikbewusster Diskriminator für Bild-Superauflösung
- Papier: https://arxiv.org/abs/2402.19387
- Code: https://github.com/lbc12345/SeD
APISR: Von der Anime-Produktion inspirierte reale Anime-Superauflösung
- Papier: https://arxiv.org/abs/2403.01598
- Code: https://github.com/Kiteretsu77/APISR
Rauschunterdrückung
Bildrauschen
3D-Schätzung der menschlichen Pose
Sanduhr-Tokenizer für eine effiziente transformatorbasierte 3D-Posenschätzung einer Person
- Papier: https://arxiv.org/abs/2311.12028
- Code: https://github.com/NationalGAILab/HoT
Bilderzeugung
InstanceDiffusion: Kontrolle auf Instanzebene für die Bildgenerierung
Homepage: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Papier: https://arxiv.org/abs/2402.03290
Code: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: Ein ressourceneffizienter Text-to-Image-Prior für die Bildgenerierung
Homepage: https://eclipse-t2i.vercel.app/
Papier: https://arxiv.org/abs/2312.04655
Code: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: Bilderzeugung mit multimodaler Anweisung
- Papier: https://arxiv.org/abs/2401.01952
Rest-Rauschunterdrückungs-Diffusionsmodelle
- Papier: https://arxiv.org/abs/2308.13712
- Code: https://github.com/nachifur/RDDM
UniGS: Einheitliche Darstellung für Bilderzeugung und Segmentierung
- Papier: https://arxiv.org/abs/2312.01985
Multi-Instanz-Generierungscontroller für die Text-zu-Bild-Synthese
- Papier: https://arxiv.org/abs/2402.05408
- Code: https://github.com/limuloo/migc
SVGDreamer: Textgesteuerte SVG-Generierung mit Diffusionsmodell
- Papier: https://arxiv.org/abs/2312.16476
- Code: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: Interaktionskontrolle für das Text-zu-Bild-Diffusionsmodell
- Papier: https://arxiv.org/abs/2312.05849
- Code: https://github.com/jiuntian/interactdiffusion
Ranni: Zähmung der Text-zu-Bild-Diffusion für präzises Prompt-Folgen
- Papier: https://arxiv.org/abs/2311.17002
- Code: https://github.com/ali-vilab/Ranni
Videogenerierung
Vlogger: Machen Sie Ihren Traum zu einem Vlog
- Papier: https://arxiv.org/abs/2401.09414
- Code: https://github.com/Vchitect/Vlogger
VBench: Umfassende Benchmark-Suite für videogenerative Modelle
- Homepage: https://vchitect.github.io/VBench-project/
- Papier: https://arxiv.org/abs/2311.17982
- Code: https://github.com/Vchitect/VBench
VMC: Videobewegungsanpassung mithilfe zeitlicher Aufmerksamkeitsanpassung für Text-zu-Video-Diffusionsmodelle
- Startseite: https://video-motion-customization.github.io/
- Papier: https://arxiv.org/abs/2312.00845
- Code: https://github.com/HyeonHo99/Video-Motion-Customization
3D-Generierung
CityDreamer: Kompositorisches generatives Modell unbegrenzter 3D-Städte
- Homepage: https://haozhexie.com/project/city-dreamer/
- Papier: https://arxiv.org/abs/2309.00610
- Code: https://github.com/hzxie/city-dreamer
LucidDreamer: Auf dem Weg zur High-Fidelity-Text-zu-3D-Generierung durch Intervall-Score-Matching
- Papier: https://arxiv.org/abs/2311.11284
- Code: https://github.com/EnVision-Research/LucidDreamer
Videoverständnis
MVBench: Ein umfassender multimodaler Video-Verständnis-Benchmark
- Papier: https://arxiv.org/abs/2311.17005
- Code: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
Wissensdestillation
Logit-Standardisierung in der Wissensdestillation
- Papier: https://arxiv.org/abs/2403.01427
- Code: https://github.com/sunshangquan/logit-standardization-KD
Effiziente Datensatzdestillation durch Minimax-Diffusion
- Papier: https://arxiv.org/abs/2311.15529
- Code: https://github.com/vimar-gu/MinimaxDiffusion
Stereo-Anpassung
Neuronales Markov-Zufallsfeld für Stereo-Matching
- Papier: https://arxiv.org/abs/2403.11193
- Code: https://github.com/aeolusguan/NMRF
Generierung von Szenendiagrammen
HiKER-SGG: Hierarchische wissensverstärkte robuste Szenendiagrammgenerierung
- Homepage: https://zhangce01.github.io/HiKER-SGG/
- Papier: https://arxiv.org/abs/2403.12033
- Code: https://github.com/zhangce01/HiKER-SGG
Bewertung der Videoqualität
KVQ: Kaleidoskop-Videoqualitätsbewertung für Kurzvideos
Homepage: https://lixinustc.github.io/projects/KVQ/
Papier: https://arxiv.org/abs/2402.07220
Code: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
Datensätze
Ein realer, groß angelegter Datensatz zur kooperativen Wahrnehmung am Straßenrand
- Papier: https://arxiv.org/abs/2403.10145
- Code: https://github.com/AIR-THU/DAIR-RCooper
Analyse der Verkehrsszene anhand des TSP6K-Datensatzes
- Papier: https://arxiv.org/pdf/2303.02835.pdf
- Code: https://github.com/PengtaoJiang/TSP6K
Andere
Objekterkennung als Vorhersage des nächsten Tokens
- Papier: https://arxiv.org/abs/2312.02142
- Code: https://github.com/kaiyuyue/nxtp
ParameterNet: Parameter sind alles, was Sie für ein umfangreiches visuelles Vortraining mobiler Netzwerke benötigen
- Papier: https://arxiv.org/abs/2306.14525
- Code: https://parameternet.github.io/
Nahtlose menschliche Bewegungskomposition mit gemischten Positionskodierungen
- Papier: https://arxiv.org/abs/2402.15509
- Code: https://github.com/BarqueroGerman/FlowMDM
LL3DA: Visuelle interaktive Befehlsoptimierung für Omni-3D-Verständnis, Argumentation und Planung
Homepage: https://ll3da.github.io/
Papier: https://arxiv.org/abs/2311.18651
Code: https://github.com/Open3DA/LL3DA
CLOVA: Ein visueller Closed-Loop-Assistent mit Tool-Nutzung und -Aktualisierung
- Homepage: https://clova-tool.github.io/
- Papier: https://arxiv.org/abs/2312.10908
MoMask: Generative maskierte Modellierung menschlicher 3D-Bewegungen
- Papier: https://arxiv.org/abs/2312.00063
- Code: https://github.com/EricGuo5513/momask-codes
Amodale Grundwahrheit und Vollendung in freier Wildbahn
- Homepage: https://www.robots.ox.ac.uk/~vgg/research/amodal/
- Papier: https://arxiv.org/abs/2312.17247
- Code: https://github.com/Championchess/Amodal-Completion-in-the-Wild
Verbesserte visuelle Erdung durch selbstkonsistente Erklärungen
- Papier: https://arxiv.org/abs/2312.04554
- Code: https://github.com/uvavision/SelfEQ
ImageNet-D: Benchmarking der Robustheit neuronaler Netzwerke bei synthetischen Diffusionsobjekten
- Homepage: https://chenshuang-zhang.github.io/imagenet_d/
- Papier: https://arxiv.org/abs/2403.18775
- Code: https://github.com/chenshuang-zhang/imagenet_d
Lernen aus synthetischen menschlichen Gruppenaktivitäten
- Homepage: https://cjerry1243.github.io/M3Act/
- Papier https://arxiv.org/abs/2306.16772
- Code: https://github.com/cjerry1243/M3Act
Ein themenübergreifendes Gehirn-Dekodierungs-Framework
- Homepage: https://littlepure2333.github.io/MindBridge/
- Papier: https://arxiv.org/abs/2404.07850
- Code: https://github.com/littlepure2333/MindBridge
Multitasking-dichte Vorhersage durch Kombination von Experten mit niedrigem Rang
- Papier: https://arxiv.org/abs/2403.17749
- Code: https://github.com/YuqiYang213/MLoRE
Kontrastives Mean-Shift-Lernen zur verallgemeinerten Kategorieerkennung
- Homepage: https://postech-cvlab.github.io/cms/
- Papier: https://arxiv.org/abs/2404.09451
- Code: https://github.com/sua-choi/CMS