Documents CVPR 2024 et collection de projets Open Source (articles avec code)
Les décisions CVPR 2024 sont désormais disponibles sur OpenReview !
Remarque 1 : tout le monde est invité à soumettre des problèmes et à partager des articles CVPR 2024 et des projets open source !
Remarque 2 : Pour plus de détails sur les articles des conférences CV précédentes et d'autres articles CV de haute qualité et des critiques complètes, veuillez consulter : https://github.com/amusi/daily-paper-computer-vision
Bienvenue à scanner le code QR pour rejoindre le [CVer Academic Exchange Group], qui est la plus grande planète de connaissances en IA en vision par ordinateur ! Mis à jour quotidiennement, partagez les supports d'apprentissage les plus récents et les plus avancés en matière de vision par ordinateur, de peinture IA, de traitement d'image, d'apprentissage en profondeur, de conduite autonome, d'imagerie médicale et d'AIGC dès que possible.
[Répertoire papier open source CVPR 2024]
- 3DGS (éclaboussures gaussiennes)
- Avatars
- Colonne vertébrale
- AGRAFE
- MAE
- IA incarnée
- GAN
- GNN
- Modèle multimodal de langage étendu (MLLM)
- Grand modèle linguistique (LLM)
- NAS
- ROC
- FRN
- DETR
- Rapide
- Modèles de diffusion
- ReID (ré-identification)
- Distribution à longue traîne (Long-Tail)
- Transformateur de vision
- Vision-Langage
- Apprentissage auto-supervisé
- Augmentation des données
- Détection d'objet
- Détection des anomalies
- Suivi de cible (suivi visuel)
- Segmentation sémantique
- Segmentation des instances
- Segmentation panoptique
- Image Médicale
- Segmentation d'images médicales
- Segmentation d'objets vidéo
- Segmentation des instances vidéo
- Segmentation d'image de référence
- Tapis d'image
- Édition d'images
- Vision de bas niveau
- Super-résolution
- Débruitage
- Déflou
- Conduite autonome
- Nuage de points 3D
- Détection d'objets 3D
- Segmentation sémantique 3D
- Suivi d'objets 3D
- Achèvement de la scène sémantique 3D (Achèvement de la scène sémantique 3D)
- Inscription 3D
- Estimation de la pose humaine en 3D
- Estimation du maillage humain 3D
- Image Médicale
- Génération d'images
- Génération vidéo
- Génération 3D
- Compréhension de la vidéo
- Détection d'actions
- Détection de texte
- Distillation des connaissances
- Taille du modèle
- Compression d'images
- Reconstitution 3D
- Estimation de la profondeur
- Prédiction de trajectoire
- Détection de voie
- Sous-titrage des images
- Réponse visuelle aux questions
- Reconnaissance de la langue des signes
- Prédiction vidéo
- Synthèse de nouvelles vues
- Apprentissage Zero-Shot (apprentissage sans échantillon)
- Correspondance stéréo
- Correspondance des fonctionnalités
- Génération de graphiques de scène
- Représentations neuronales implicites
- Évaluation de la qualité des images
- Évaluation de la qualité vidéo
- Ensembles de données
- Nouvelles tâches
- Autres
3DGS (éclaboussures gaussiennes)
Scaffold-GS : Gaussiennes 3D structurées pour un rendu adaptatif à la vue
- Page d'accueil : https://city-super.github.io/scaffold-gs/
- Article : https://arxiv.org/abs/2312.00109
- Code : https://github.com/city-super/Scaffold-GS
GPS-Gaussian : éclaboussures gaussiennes 3D généralisables au niveau des pixels pour la synthèse de nouvelles vues humaines en temps réel
- Page d'accueil : https://shunyuanzheng.github.io/GPS-Gaussian
- Article : https://arxiv.org/abs/2312.02155
- Code : https://github.com/ShunyuanZheng/GPS-Gaussian
GaussianAvatar : vers une modélisation réaliste d'avatar humain à partir d'une seule vidéo via des Gaussiennes 3D animables
- Article : https://arxiv.org/abs/2312.02134
- Code : https://github.com/huliangxiao/GaussianAvatar
GaussianEditor : édition 3D rapide et contrôlable avec éclaboussures gaussiennes
- Article : https://arxiv.org/abs/2311.14521
- Code : https://github.com/buaacyw/GaussianEditor
Gaussiennes 3D déformables pour la reconstruction de scènes dynamiques monoculaires haute fidélité
- Page d'accueil : https://ingra14m.github.io/Deformable-Gaussians/
- Article : https://arxiv.org/abs/2309.13101
- Code : https://github.com/ingra14m/Deformable-3D-Gaussians
SC-GS : éclaboussures gaussiennes à contrôle clairsemé pour des scènes dynamiques modifiables
- Page d'accueil : https://yihua7.github.io/SC-GS-web/
- Article : https://arxiv.org/abs/2312.14937
- Code : https://github.com/yihua7/SC-GS
Éclaboussure de caractéristiques gaussiennes spatio-temporelles pour la synthèse de vues dynamiques en temps réel
- Page d'accueil : https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Article : https://arxiv.org/abs/2312.16812
- Code : https://github.com/oppo-us-research/SpacetimeGaussians
DNGaussian : optimisation des champs de rayonnement gaussien 3D à vue clairsemée avec une normalisation de profondeur globale-locale
- Page d'accueil : https://fictionarry.github.io/DNGaussian/
- Article : https://arxiv.org/abs/2403.06912
- Code : https://github.com/Fictionarry/DNGaussian
Éclaboussures gaussiennes 4D pour un rendu de scène dynamique en temps réel
- Article : https://arxiv.org/abs/2310.08528
- Code : https://github.com/hustvl/4DGaussians
GaussianDreamer : génération rapide du texte aux gaussiennes 3D en reliant les modèles de diffusion 2D et 3D
- Article : https://arxiv.org/abs/2310.08529
- Code : https://github.com/hustvl/GaussianDreamer
Avatars
GaussianAvatar : vers une modélisation réaliste d'avatar humain à partir d'une seule vidéo via des Gaussiennes 3D animables
- Article : https://arxiv.org/abs/2312.02134
- Code : https://github.com/huliangxiao/GaussianAvatar
Avatar simulé en temps réel à partir de capteurs montés sur la tête
- Page d'accueil : https://www.zhengyiluo.com/SimXR/
- Article : https://arxiv.org/abs/2403.06862
Colonne vertébrale
RepViT : revisiter CNN mobile du point de vue de ViT
- Article : https://arxiv.org/abs/2307.09283
- Code : https://github.com/THU-MIG/RepViT
TransNeXt : perception visuelle fovéale robuste pour les transformateurs de vision
- Article : https://arxiv.org/abs/2311.17132
- Code : https://github.com/DaiShiResearch/TransNeXt
AGRAFE
Alpha-CLIP : un modèle CLIP qui se concentre là où vous le souhaitez
- Article : https://arxiv.org/abs/2312.03818
- Code : https://github.com/SunzeY/AlphaCLIP
FairCLIP : Exploiter l'équité dans l'apprentissage du langage visuel
- Article : https://arxiv.org/abs/2403.19949
- Code : https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
MAE
IA incarnée
EmbodiedScan : une suite de perception 3D multimodale holistique vers l'IA incarnée
- Page d'accueil : https://tai-wang.github.io/embodiedscan/
- Article : https://arxiv.org/abs/2312.16170
- Code : https://github.com/OpenRobotLab/EmbodiedScan
MP5 : un système intégré multimodal ouvert dans Minecraft via la perception active
- Page d'accueil : https://iranqin.github.io/MP5.github.io/
- Article : https://arxiv.org/abs/2312.07472
- Code : https://github.com/IranQin/MP5
LEMON : Apprendre la relation d'interaction homme-objet 3D à partir d'images 2D
- Article : https://arxiv.org/abs/2312.08963
- Code : https://github.com/yyvhang/lemon_3d
GAN
ROC
Une étude empirique de la loi de mise à l'échelle pour l'OCR
- Article : https://arxiv.org/abs/2401.00028
- Code : https://github.com/large-ocr-model/large-ocr-model.github.io
ODM : une approche de pré-formation à l'alignement approfondi du texte et de l'image pour la détection et le repérage de texte de scène
- Article : https://arxiv.org/abs/2403.00303
- Code : https://github.com/PriNing/ODM
FRN
PIE-NeRF ? : Élastodynamique interactive basée sur la physique avec NeRF
- Article : https://arxiv.org/abs/2311.13099
- Code : https://github.com/FYTalon/pienerf/
DETR
Les DETR battent les YOLO sur la détection d'objets en temps réel
- Article : https://arxiv.org/abs/2304.08069
- Code : https://github.com/lyuwenyu/RT-DETR
Salience DETR : amélioration du transformateur de détection grâce au raffinement du filtrage de saillance hiérarchique
- Article : https://arxiv.org/abs/2403.16131
- Code : https://github.com/xiuqhou/Salience-DETR
Rapide
Modèle multimodal de langage étendu (MLLM)
mPLUG-Owl2 : Révolutionner le modèle de langage multimodal avec la collaboration modale
- Article : https://arxiv.org/abs/2311.04257
- Code : https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Apprentissage en contexte de lien pour les LLM multimodaux
- Article : https://arxiv.org/abs/2308.07891
- Code : https://github.com/isekai-portal/Link-Context-Learning/tree/main
OPERA : atténuer les hallucinations dans les grands modèles de langage multimodaux via une pénalité de confiance excessive et une allocation de rétrospection
- Article : https://arxiv.org/abs/2311.17911
- Code : https://github.com/shikiw/OPERA
Faire en sorte que de grands modèles multimodaux comprennent des invites visuelles arbitraires
- Page d'accueil : https://vip-llava.github.io/
- Article : https://arxiv.org/abs/2312.00784
Pink : dévoiler le pouvoir de la compréhension référentielle pour les LLM multimodaux
- Article : https://arxiv.org/abs/2310.00582
- Code : https://github.com/SY-Xuan/Pink
Chat-UniVi : la représentation visuelle unifiée permet aux grands modèles de langage de comprendre les images et les vidéos
- Article : https://arxiv.org/abs/2311.08046
- Code : https://github.com/PKU-YuanGroup/Chat-UniVi
OneLLM : un cadre pour aligner toutes les modalités sur le langage
- Article : https://arxiv.org/abs/2312.03700
- Code : https://github.com/csuhan/OneLLM
Grand modèle linguistique (LLM)
VTimeLLM : permettez à LLM de saisir les moments vidéo
- Article : https://arxiv.org/abs/2311.18445
- Code : https://github.com/huangb23/VTimeLLM
NAS
ReID (ré-identification)
Jetons magiques : sélectionnez divers jetons pour la réidentification d'objets multimodaux
- Article : https://arxiv.org/abs/2403.10254
- Code : https://github.com/924973292/EDITOR
Apprentissage par correspondance bruyante pour la réidentification de personne texte-image
Modèles de diffusion
InstanceDiffusion : contrôle au niveau de l'instance pour la génération d'images
Page d'accueil : https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Article : https://arxiv.org/abs/2402.03290
Code : https://github.com/frank-xwang/InstanceDiffusion
Modèles de diffusion de débruitage résiduel
- Article : https://arxiv.org/abs/2308.13712
- Code : https://github.com/nachifur/RDDM
DeepCache : accélération gratuite des modèles de diffusion
- Article : https://arxiv.org/abs/2312.00858
- Code : https://github.com/horseee/DeepCache
DEADiff : un modèle de diffusion de stylisation efficace avec des représentations démêlées
Page d'accueil : https://tianhao-qi.github.io/DEADiff/
Article : https://arxiv.org/abs/2403.06951
Code : https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer : génération SVG guidée par texte avec modèle de diffusion
- Article : https://arxiv.org/abs/2312.16476
- Code : https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion : contrôle d'interaction pour le modèle de diffusion texte-image
- Article : https://arxiv.org/abs/2312.05849
- Code : https://github.com/jiuntian/interactdiffusion
MMA-Diffusion : attaque multimodale sur les modèles de diffusion
- Article : https://arxiv.org/abs/2311.17516
- Code : https://github.com/yangyijune/MMA-Diffusion
VMC : personnalisation du mouvement vidéo à l'aide de l'adaptation de l'attention temporelle pour les modèles de diffusion texte-vidéo
- Accueil : https://video-motion-customization.github.io/
- Article : https://arxiv.org/abs/2312.00845
- Code : https://github.com/HyeonHo99/Video-Motion-Customization
Transformateur de vision
TransNeXt : perception visuelle fovéale robuste pour les transformateurs de vision
- Article : https://arxiv.org/abs/2311.17132
- Code : https://github.com/DaiShiResearch/TransNeXt
RepViT : revisiter CNN mobile du point de vue de ViT
- Article : https://arxiv.org/abs/2307.09283
- Code : https://github.com/THU-MIG/RepViT
Une formation générale et efficace pour Transformer via l'extension de jetons
- Article : https://arxiv.org/abs/2404.00672
- Code : https://github.com/Osilly/TokenExpansion
Vision-Langage
PromptKD : distillation rapide non supervisée pour les modèles vision-langage
- Article : https://arxiv.org/abs/2403.02781
- Code : https://github.com/zhengli97/PromptKD
FairCLIP : Exploiter l'équité dans l'apprentissage du langage visuel
- Article : https://arxiv.org/abs/2403.19949
- Code : https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
Détection d'objet
Les DETR battent les YOLO sur la détection d'objets en temps réel
- Article : https://arxiv.org/abs/2304.08069
- Code : https://github.com/lyuwenyu/RT-DETR
Améliorer la détection d'objets avec l'adaptation de domaine jour-nuit Zero-Shot
- Article : https://arxiv.org/abs/2312.01220
- Code : https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation
YOLO-World : détection d'objets à vocabulaire ouvert en temps réel
- Article : https://arxiv.org/abs/2401.17270
- Code : https://github.com/AILab-CVC/YOLO-World
Salience DETR : amélioration du transformateur de détection grâce au raffinement du filtrage de saillance hiérarchique
- Article : https://arxiv.org/abs/2403.16131
- Code : https://github.com/xiuqhou/Salience-DETR
Détection des anomalies
Apprentissage de l’hétérogénéité des anomalies pour la détection d’anomalies supervisée en mode ouvert
- Article : https://arxiv.org/abs/2310.12790
- Code : https://github.com/mala-lab/AHL
Suivi d'objet
Plonger dans la distribution de trajectoire à longue traîne pour le suivi multi-objets
- Article : https://arxiv.org/abs/2403.04700
- Code : https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
Segmentation sémantique
Plus fort, moins nombreux et supérieur : exploiter les modèles de base de vision pour la segmentation sémantique généralisée du domaine
- Article : https://arxiv.org/abs/2312.04265
- Code : https://github.com/w1oves/Rein
SED : un encodeur-décodeur simple pour la segmentation sémantique à vocabulaire ouvert
- Article : https://arxiv.org/abs/2311.15537
- Code : https://github.com/xb534/SED
Image Médicale
Réintégration de fonctionnalités : vers des performances au niveau du modèle de base en pathologie computationnelle
- Article : https://arxiv.org/abs/2402.17228
- Code : https://github.com/DearCaat/RRT-MIL
VoCo : un cadre d'apprentissage contrastif en volume simple mais efficace pour l'analyse d'images médicales 3D
- Article : https://arxiv.org/abs/2402.17300
- Code : https://github.com/Luffy03/VoCo
ChAda-ViT : Canaliser l'attention adaptative pour l'apprentissage conjoint des représentations d'images de microscopie hétérogènes
- Article : https://arxiv.org/abs/2311.15264
- Code : https://github.com/nicoboou/chada_vit
Segmentation d'images médicales
Conduite autonome
UniPAD : un paradigme universel de pré-formation pour la conduite autonome
- Article : https://arxiv.org/abs/2310.08370
- Code : https://github.com/Nightmare-n/UniPAD
Cam4DOcc : référence pour la prévision d'occupation 4D par caméra uniquement dans les applications de conduite autonome
- Article : https://arxiv.org/abs/2311.17663
- Code : https://github.com/haomo-ai/Cam4DOcc
Adaptateurs basés sur la mémoire pour la perception de scènes 3D en ligne
- Article : https://arxiv.org/abs/2403.06974
- Code : https://github.com/xuxw98/Online3D
Symphonisez la complétion de scènes sémantiques 3D avec des requêtes d'instance contextuelles
- Article : https://arxiv.org/abs/2306.15670
- Code : https://github.com/hustvl/Symphonies
Un ensemble de données réelles à grande échelle pour la perception coopérative en bordure de route
- Article : https://arxiv.org/abs/2403.10145
- Code : https://github.com/AIR-THU/DAIR-RCooper
Fusion adaptative de la profondeur d'une vue unique et d'une vue multiple pour la conduite autonome
- Article : https://arxiv.org/abs/2403.07535
- Code : https://github.com/Junda24/AFNet
Analyse des scènes de trafic via l'ensemble de données TSP6K
- Article : https://arxiv.org/pdf/2303.02835.pdf
- Code : https://github.com/PengtaoJiang/TSP6K
Nuage de points 3D (3D-Point-Cloud)
Détection d'objets 3D
PTT : transformateur point-trajectoire pour une détection efficace d'objets 3D temporels
- Article : https://arxiv.org/abs/2312.08371
- Code : https://github.com/kuanchihhuang/PTT
UniMODE : détection d'objets 3D monoculaires unifiées
- Article : https://arxiv.org/abs/2402.18573
Segmentation sémantique 3D
Édition d'images
Edit One for All : édition interactive d'images par lots
- Page d'accueil : https://thaoshibe.github.io/edit-one-for-all
- Article : https://arxiv.org/abs/2401.10219
- Code : https://github.com/thaoshibe/edit-one-for-all
Montage vidéo
MaskINT : montage vidéo via des transformateurs masqués interpolatifs non autorégressifs
Vision de bas niveau
Modèles de diffusion de débruitage résiduel
- Article : https://arxiv.org/abs/2308.13712
- Code : https://github.com/nachifur/RDDM
Améliorer la restauration d'images via les priorités à partir de modèles pré-entraînés
- Article : https://arxiv.org/abs/2403.06793
Super-résolution
SeD : discriminateur sémantique pour la super-résolution d'images
- Article : https://arxiv.org/abs/2402.19387
- Code : https://github.com/lbc12345/SeD
APISR : la production d'anime inspirée de la super-résolution d'anime du monde réel
- Article : https://arxiv.org/abs/2403.01598
- Code : https://github.com/Kiteretsu77/APISR
Débruitage
Débruitage d'image
Estimation de la pose humaine en 3D
Hourglass Tokenizer pour une estimation efficace de la pose humaine 3D basée sur un transformateur
- Article : https://arxiv.org/abs/2311.12028
- Code : https://github.com/NationalGAILab/HoT
Génération d'images
InstanceDiffusion : contrôle au niveau de l'instance pour la génération d'images
Page d'accueil : https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Article : https://arxiv.org/abs/2402.03290
Code : https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE : un outil de conversion texte-image économe en ressources pour les générations d'images
Page d'accueil : https://eclipse-t2i.vercel.app/
Article : https://arxiv.org/abs/2312.04655
Code : https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen : génération d'images avec instruction multimodale
- Article : https://arxiv.org/abs/2401.01952
Modèles de diffusion de débruitage résiduel
- Article : https://arxiv.org/abs/2308.13712
- Code : https://github.com/nachifur/RDDM
UniGS : représentation unifiée pour la génération et la segmentation d'images
- Article : https://arxiv.org/abs/2312.01985
Contrôleur de génération multi-instance pour la synthèse texte-image
- Article : https://arxiv.org/abs/2402.05408
- Code : https://github.com/limuloo/migc
SVGDreamer : génération SVG guidée par texte avec modèle de diffusion
- Article : https://arxiv.org/abs/2312.16476
- Code : https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion : contrôle d'interaction pour le modèle de diffusion texte-image
- Article : https://arxiv.org/abs/2312.05849
- Code : https://github.com/jiuntian/interactdiffusion
Ranni : maîtriser la diffusion texte-image pour un suivi précis des invites
- Article : https://arxiv.org/abs/2311.17002
- Code : https://github.com/ali-vilab/Ranni
Génération vidéo
Vlogger : faites de votre rêve un vlog
- Article : https://arxiv.org/abs/2401.09414
- Code : https://github.com/Vchitect/Vlogger
VBench : suite de référence complète pour les modèles génératifs vidéo
- Page d'accueil : https://vchitect.github.io/VBench-project/
- Article : https://arxiv.org/abs/2311.17982
- Code : https://github.com/Vchitect/VBench
VMC : personnalisation du mouvement vidéo à l'aide de l'adaptation de l'attention temporelle pour les modèles de diffusion texte-vidéo
- Accueil : https://video-motion-customization.github.io/
- Article : https://arxiv.org/abs/2312.00845
- Code : https://github.com/HyeonHo99/Video-Motion-Customization
Génération 3D
CityDreamer : modèle génératif compositionnel de villes 3D illimitées
- Page d'accueil : https://haozhexie.com/project/city-dreamer/
- Article : https://arxiv.org/abs/2309.00610
- Code : https://github.com/hzxie/city-dreamer
LucidDreamer : vers une génération de texte en 3D haute fidélité via la correspondance de scores par intervalles
- Article : https://arxiv.org/abs/2311.11284
- Code : https://github.com/EnVision-Research/LucidDreamer
Compréhension de la vidéo
MVBench : un benchmark complet de compréhension de la vidéo multimodale
- Article : https://arxiv.org/abs/2311.17005
- Code : https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
Distillation des connaissances
Standardisation Logit dans la distillation des connaissances
- Article : https://arxiv.org/abs/2403.01427
- Code : https://github.com/sunshangquan/logit-standardization-KD
Distillation efficace des ensembles de données via la diffusion Minimax
- Article : https://arxiv.org/abs/2311.15529
- Code : https://github.com/vimar-gu/MinimaxDiffusion
Correspondance stéréo
Champ aléatoire de Markov neuronal pour la correspondance stéréo
- Article : https://arxiv.org/abs/2403.11193
- Code : https://github.com/aeolusguan/NMRF
Génération de graphiques de scène
HiKER-SGG : génération de graphiques de scène robustes améliorées par les connaissances hiérarchiques
- Page d'accueil : https://zhangce01.github.io/HiKER-SGG/
- Article : https://arxiv.org/abs/2403.12033
- Code : https://github.com/zhangce01/HiKER-SGG
Évaluation de la qualité vidéo
KVQ : évaluation de la qualité vidéo du kaléidoscope pour les vidéos courtes
Page d'accueil : https://lixinustc.github.io/projects/KVQ/
Article : https://arxiv.org/abs/2402.07220
Code : https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
Ensembles de données
Un ensemble de données réelles à grande échelle pour la perception coopérative en bordure de route
- Article : https://arxiv.org/abs/2403.10145
- Code : https://github.com/AIR-THU/DAIR-RCooper
Analyse des scènes de trafic via l'ensemble de données TSP6K
- Article : https://arxiv.org/pdf/2303.02835.pdf
- Code : https://github.com/PengtaoJiang/TSP6K
Autres
Reconnaissance d'objets comme prochaine prédiction de jeton
- Article : https://arxiv.org/abs/2312.02142
- Code : https://github.com/kaiyuyue/nxtp
ParameterNet : les paramètres sont tout ce dont vous avez besoin pour un pré-entraînement visuel à grande échelle des réseaux mobiles
- Article : https://arxiv.org/abs/2306.14525
- Code : https://parameternet.github.io/
Composition fluide du mouvement humain avec encodages de position mixtes
- Article : https://arxiv.org/abs/2402.15509
- Code : https://github.com/BarqueroGerman/FlowMDM
LL3DA : réglage des instructions visuelles interactives pour la compréhension, le raisonnement et la planification Omni-3D
Page d'accueil : https://ll3da.github.io/
Article : https://arxiv.org/abs/2311.18651
Code : https://github.com/Open3DA/LL3DA
CLOVA : un assistant visuel en boucle fermée avec utilisation et mise à jour des outils
- Page d'accueil : https://clova-tool.github.io/
- Article : https://arxiv.org/abs/2312.10908
MoMask : modélisation masquée générative des mouvements humains 3D
- Article : https://arxiv.org/abs/2312.00063
- Code : https://github.com/EricGuo5513/momask-codes
Amodal Ground Truth et achèvement dans la nature
- Page d'accueil : https://www.robots.ox.ac.uk/~vgg/research/amodal/
- Article : https://arxiv.org/abs/2312.17247
- Code : https://github.com/Championchess/Amodal-Completion-in-the-Wild
Base visuelle améliorée grâce à des explications cohérentes
- Article : https://arxiv.org/abs/2312.04554
- Code : https://github.com/uvavision/SelfEQ
ImageNet-D : analyse comparative de la robustesse des réseaux neuronaux sur un objet synthétique de diffusion
- Page d'accueil : https://chenshuang-zhang.github.io/imagenet_d/
- Article : https://arxiv.org/abs/2403.18775
- Code : https://github.com/chenshuang-zhang/imagenet_d
Apprendre des activités de groupes humains synthétiques
- Page d'accueil : https://cjerry1243.github.io/M3Act/
- Article https://arxiv.org/abs/2306.16772
- Code : https://github.com/cjerry1243/M3Act
Un cadre de décodage cérébral inter-sujets
- Page d'accueil : https://littlepure2333.github.io/MindBridge/
- Article : https://arxiv.org/abs/2404.07850
- Code : https://github.com/littlepure2333/MindBridge
Prédiction dense multi-tâches via un mélange d'experts de bas rang
- Article : https://arxiv.org/abs/2403.17749
- Code : https://github.com/YuqiYang213/MLoRE
Apprentissage contrastif par décalage moyen pour la découverte généralisée de catégories
- Page d'accueil : https://postech-cvlab.github.io/cms/
- Article : https://arxiv.org/abs/2404.09451
- Code : https://github.com/sua-choi/CMS