Artigos CVPR 2024 e coleção de projetos de código aberto (artigos com código)
As decisões do CVPR 2024 já estão disponíveis no OpenReview!
Nota 1: Todos são bem-vindos para enviar problemas e compartilhar artigos do CVPR 2024 e projetos de código aberto!
Nota 2: Para obter detalhes sobre artigos de conferências de CV anteriores e outros artigos de CV de alta qualidade e revisões abrangentes, consulte: https://github.com/amusi/daily-paper-computer-vision
Bem-vindo ao escanear o código QR para ingressar no [Grupo de Intercâmbio Acadêmico CVer], que é o maior planeta de conhecimento de IA de visão computacional! Atualizado diariamente, compartilhe os materiais de aprendizagem mais recentes e avançados em visão computacional, pintura de IA, processamento de imagens, aprendizado profundo, direção autônoma, imagens médicas e AIGC. Comece a aprender o mais rápido possível!
[Diretório de documentos de código aberto CVPR 2024]
- 3DGS (respingos gaussianos)
- Avatares
- Espinha dorsal
- GRAMPO
- MAE
- IA incorporada
- GAN
- GNN
- Modelo Multimodal de Grande Linguagem (MLLM)
- Modelo de linguagem grande (LLM)
- NAS
- OCR
- NRF
- DETR
- Incitar
- Modelos de Difusão
- ReID (reidentificação)
- Distribuição de cauda longa (cauda longa)
- Transformador de Visão
- Visão-Linguagem
- Aprendizagem auto-supervisionada
- Aumento de dados
- Detecção de objetos
- Detecção de anomalias
- Rastreamento de alvo (rastreamento visual)
- Segmentação Semântica
- Segmentação de instância
- Segmentação Panóptica
- Imagem Médica
- Segmentação de imagens médicas
- Segmentação de objetos de vídeo
- Segmentação de instâncias de vídeo
- Referindo a segmentação de imagens
- Fosqueamento de imagem
- Edição de imagem
- Visão de baixo nível
- Super-resolução
- Eliminação de ruído
- Desfocar
- Condução Autônoma
- Nuvem de pontos 3D
- Detecção de objetos 3D
- Segmentação Semântica 3D
- Rastreamento de objetos 3D
- Conclusão de cena semântica 3D (conclusão de cena semântica 3D)
- Registro 3D
- Estimativa de pose humana 3D
- Estimativa de malha humana 3D
- Imagem Médica
- Geração de imagem
- Geração de Vídeo
- Geração 3D
- Compreensão do vídeo
- Detecção de ação
- Detecção de texto
- Destilação de Conhecimento
- Poda de modelo
- Compressão de imagem
- Reconstrução 3D
- Estimativa de profundidade
- Previsão de trajetória
- Detecção de pista
- Legendagem de imagens
- Resposta visual a perguntas
- Reconhecimento de linguagem de sinais
- Previsão de vídeo
- Síntese de nova visão
- Aprendizado Zero-Shot (aprendizado com amostra zero)
- Correspondência estéreo
- Correspondência de recursos
- Geração de gráfico de cena
- Representações Neurais Implícitas
- Avaliação da qualidade da imagem
- Avaliação da qualidade do vídeo
- Conjuntos de dados
- Novas tarefas
- Outros
3DGS (respingos gaussianos)
Scaffold-GS: Gaussianos 3D estruturados para renderização adaptável à visualização
- Página inicial: https://city-super.github.io/scaffold-gs/
- Artigo: https://arxiv.org/abs/2312.00109
- Código: https://github.com/city-super/Scaffold-GS
GPS-Gaussian: Splatting gaussiano 3D generalizável em pixels para síntese de visualização de romance humano em tempo real
- Página inicial: https://shunyuanzheng.github.io/GPS-Gaussian
- Artigo: https://arxiv.org/abs/2312.02155
- Código: https://github.com/ShunyuanZheng/GPS-Gaussian
GaussianAvatar: Rumo à modelagem realista de avatar humano a partir de um único vídeo por meio de gaussianos 3D animáveis
- Artigo: https://arxiv.org/abs/2312.02134
- Código: https://github.com/huliangxiao/GaussianAvatar
GaussianEditor: Edição 3D rápida e controlável com Gaussian Splatting
- Artigo: https://arxiv.org/abs/2311.14521
- Código: https://github.com/buaacyw/GaussianEditor
Gaussianos 3D deformáveis para reconstrução de cenas dinâmicas monoculares de alta fidelidade
- Página inicial: https://ingra14m.github.io/Deformable-Gaussians/
- Artigo: https://arxiv.org/abs/2309.13101
- Código: https://github.com/ingra14m/Deformable-3D-Gaussians
SC-GS: Respingos Gaussianos Esparsamente Controlados para Cenas Dinâmicas Editáveis
- Página inicial: https://yihua7.github.io/SC-GS-web/
- Artigo: https://arxiv.org/abs/2312.14937
- Código: https://github.com/yihua7/SC-GS
Respingos de recursos gaussianos do espaço-tempo para síntese de visão dinâmica em tempo real
- Página inicial: https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Artigo: https://arxiv.org/abs/2312.16812
- Código: https://github.com/oppo-us-research/SpacetimeGaussians
DNGaussian: Otimizando Campos de Radiância Gaussiana 3D de Visualização Esparsa com Normalização de Profundidade Global-Local
- Página inicial: https://fictionarry.github.io/DNGaussian/
- Artigo: https://arxiv.org/abs/2403.06912
- Código: https://github.com/Fictionarry/DNGaussian
Respingos gaussianos 4D para renderização dinâmica de cenas em tempo real
- Artigo: https://arxiv.org/abs/2310.08528
- Código: https://github.com/hustvl/4DGaussians
GaussianDreamer: geração rápida de texto para gaussianos 3D através da ponte entre modelos de difusão 2D e 3D
- Artigo: https://arxiv.org/abs/2310.08529
- Código: https://github.com/hustvl/GaussianDreamer
Avatares
GaussianAvatar: Rumo à modelagem realista de avatar humano a partir de um único vídeo por meio de gaussianos 3D animáveis
- Artigo: https://arxiv.org/abs/2312.02134
- Código: https://github.com/huliangxiao/GaussianAvatar
Avatar simulado em tempo real a partir de sensores montados na cabeça
- Página inicial: https://www.zhengyiluo.com/SimXR/
- Artigo: https://arxiv.org/abs/2403.06862
Espinha dorsal
RepViT: revisitando a CNN móvel da perspectiva ViT
- Artigo: https://arxiv.org/abs/2307.09283
- Código: https://github.com/THU-MIG/RepViT
TransNeXt: Percepção visual foveal robusta para transformadores de visão
- Artigo: https://arxiv.org/abs/2311.17132
- Código: https://github.com/DaiShiResearch/TransNeXt
GRAMPO
Alpha-CLIP: um modelo CLIP focado em onde você quiser
- Artigo: https://arxiv.org/abs/2312.03818
- Código: https://github.com/SunzeY/AlphaCLIP
FairCLIP: Aproveitando a Justiça na Aprendizagem de Visão-Linguagem
- Artigo: https://arxiv.org/abs/2403.19949
- Código: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
MAE
IA incorporada
EmposedScan: um conjunto holístico de percepção 3D multimodal em direção à IA incorporada
- Página inicial: https://tai-wang.github.io/embodyscan/
- Artigo: https://arxiv.org/abs/2312.16170
- Código: https://github.com/OpenRobotLab/EmbodyScan
MP5: um sistema incorporado multimodal e aberto no Minecraft via percepção ativa
- Página inicial: https://iranqin.github.io/MP5.github.io/
- Artigo: https://arxiv.org/abs/2312.07472
- Código: https://github.com/IranQin/MP5
LEMON: Aprendendo a relação de interação humano-objeto 3D a partir de imagens 2D
- Artigo: https://arxiv.org/abs/2312.08963
- Código: https://github.com/yyvhang/lemon_3d
GAN
OCR
Um estudo empírico da lei de escala para OCR
- Artigo: https://arxiv.org/abs/2401.00028
- Código: https://github.com/large-ocr-model/large-ocr-model.github.io
ODM: uma abordagem de pré-treinamento de alinhamento adicional de texto-imagem para detecção e localização de texto de cena
- Artigo: https://arxiv.org/abs/2403.00303
- Código: https://github.com/PriNing/ODM
NRF
PIE-NeRF ?: Elastodinâmica Interativa Baseada em Física com NeRF
- Artigo: https://arxiv.org/abs/2311.13099
- Código: https://github.com/FYTalon/pienerf/
DETR
DETRs superam YOLOs na detecção de objetos em tempo real
- Artigo: https://arxiv.org/abs/2304.08069
- Código: https://github.com/lyuwenyu/RT-DETR
Salience DETR: Aprimorando o transformador de detecção com refinamento de filtragem de saliência hierárquica
- Artigo: https://arxiv.org/abs/2403.16131
- Código: https://github.com/xiuqhou/Salience-DETR
Incitar
Modelo Multimodal de Grande Linguagem (MLLM)
mPLUG-Owl2: Revolucionando o modelo multimodal de linguagem grande com colaboração de modalidade
- Artigo: https://arxiv.org/abs/2311.04257
- Código: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Aprendizagem Link-Context para LLMs multimodais
- Artigo: https://arxiv.org/abs/2308.07891
- Código: https://github.com/isekai-portal/Link-Context-Learning/tree/main
OPERA: Aliviando a alucinação em modelos multimodais de grandes linguagens por meio de penalidade por excesso de confiança e alocação de retrospecção
- Artigo: https://arxiv.org/abs/2311.17911
- Código: https://github.com/shikiw/OPERA
Fazendo grandes modelos multimodais compreenderem prompts visuais arbitrários
- Página inicial: https://vip-llava.github.io/
- Artigo: https://arxiv.org/abs/2312.00784
Pink: Revelando o poder da compreensão referencial para filmes multimodais
- Artigo: https://arxiv.org/abs/2310.00582
- Código: https://github.com/SY-Xuan/Pink
Chat-UniVi: representação visual unificada capacita grandes modelos de linguagem com compreensão de imagens e vídeos
- Artigo: https://arxiv.org/abs/2311.08046
- Código: https://github.com/PKU-YuanGroup/Chat-UniVi
OneLLM: uma estrutura para alinhar todas as modalidades com a linguagem
- Artigo: https://arxiv.org/abs/2312.03700
- Código: https://github.com/csuhan/OneLLM
Modelo de linguagem grande (LLM)
VTimeLLM: capacite o LLM para capturar momentos de vídeo
- Artigo: https://arxiv.org/abs/2311.18445
- Código: https://github.com/huangb23/VTimeLLM
NAS
ReID (reidentificação)
Magic Tokens: Selecione diversos tokens para reidentificação de objetos multimodais
- Artigo: https://arxiv.org/abs/2403.10254
- Código: https://github.com/924973292/EDITOR
Aprendizagem por correspondência barulhenta para reidentificação de pessoas de texto para imagem
Modelos de Difusão
InstanceDiffusion: controle em nível de instância para geração de imagens
Página inicial: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Artigo: https://arxiv.org/abs/2402.03290
Código: https://github.com/frank-xwang/InstanceDiffusion
Modelos de difusão com eliminação de ruído residual
- Artigo: https://arxiv.org/abs/2308.13712
- Código: https://github.com/nachifur/RDDM
DeepCache: acelerando modelos de difusão gratuitamente
- Artigo: https://arxiv.org/abs/2312.00858
- Código: https://github.com/horseee/DeepCache
DEADiff: um modelo de difusão de estilização eficiente com representações desembaraçadas
Página inicial: https://tianhao-qi.github.io/DEADiff/
Artigo: https://arxiv.org/abs/2403.06951
Código: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: geração de SVG guiada por texto com modelo de difusão
- Artigo: https://arxiv.org/abs/2312.16476
- Código: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: Controle de interação para modelo de difusão de texto para imagem
- Artigo: https://arxiv.org/abs/2312.05849
- Código: https://github.com/jiuntian/interactdiffusion
Difusão MMA: Ataque MultiModal em Modelos de Difusão
- Artigo: https://arxiv.org/abs/2311.17516
- Código: https://github.com/yangyijune/MMA-Diffusion
VMC: Personalização de movimento de vídeo usando adaptação de atenção temporal para modelos de difusão de texto para vídeo
- Homeoagem: https://video-motion-customization.github.io/
- Artigo: https://arxiv.org/abs/2312.00845
- Código: https://github.com/HyeonHo99/Video-Motion-Customization
Transformador de visão
TransNeXt: Percepção visual foveal robusta para transformadores de visão
- Artigo: https://arxiv.org/abs/2311.17132
- Código: https://github.com/DaiShiResearch/TransNeXt
RepViT: revisitando a CNN móvel da perspectiva ViT
- Artigo: https://arxiv.org/abs/2307.09283
- Código: https://github.com/THU-MIG/RepViT
Um treinamento geral e eficiente para transformadores via expansão de token
- Artigo: https://arxiv.org/abs/2404.00672
- Código: https://github.com/Osilly/TokenExpansion
Visão-Linguagem
PromptKD: Destilação imediata não supervisionada para modelos de linguagem de visão
- Artigo: https://arxiv.org/abs/2403.02781
- Código: https://github.com/zhengli97/PromptKD
FairCLIP: Aproveitando a Justiça na Aprendizagem de Visão-Linguagem
- Artigo: https://arxiv.org/abs/2403.19949
- Código: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
Detecção de objetos
DETRs superam YOLOs na detecção de objetos em tempo real
- Artigo: https://arxiv.org/abs/2304.08069
- Código: https://github.com/lyuwenyu/RT-DETR
Aumentando a detecção de objetos com adaptação de domínio diurno e noturno Zero-Shot
- Artigo: https://arxiv.org/abs/2312.01220
- Código: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation
YOLO-World: Detecção de objetos de vocabulário aberto em tempo real
- Artigo: https://arxiv.org/abs/2401.17270
- Código: https://github.com/AILab-CVC/YOLO-World
Salience DETR: Aprimorando o transformador de detecção com refinamento de filtragem de saliência hierárquica
- Artigo: https://arxiv.org/abs/2403.16131
- Código: https://github.com/xiuqhou/Salience-DETR
Detecção de anomalias
Aprendizagem de heterogeneidade de anomalias para detecção de anomalias supervisionadas em conjunto aberto
- Artigo: https://arxiv.org/abs/2310.12790
- Código: https://github.com/mala-lab/AHL
Rastreamento de objetos
Investigando a distribuição de trajetória de cauda longa para rastreamento de objetos múltiplos
- Artigo: https://arxiv.org/abs/2403.04700
- Código: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
Segmentação Semântica
Mais forte, menos e superior: aproveitando modelos de base de visão para segmentação semântica generalizada de domínio
- Artigo: https://arxiv.org/abs/2312.04265
- Código: https://github.com/w1oves/Rein
SED: um codificador-decodificador simples para segmentação semântica de vocabulário aberto
- Artigo: https://arxiv.org/abs/2311.15537
- Código: https://github.com/xb534/SED
Imagem Médica
Re-incorporação de recursos: Rumo ao desempenho em nível de modelo básico em patologia computacional
- Artigo: https://arxiv.org/abs/2402.17228
- Código: https://github.com/DearCaat/RRT-MIL
VoCo: uma estrutura de aprendizagem contrastiva de volume simples, mas eficaz para análise de imagens médicas 3D
- Artigo: https://arxiv.org/abs/2402.17300
- Código: https://github.com/Luffy03/VoCo
ChAda-ViT: atenção adaptativa de canal para aprendizagem de representação conjunta de imagens de microscopia heterogêneas
- Artigo: https://arxiv.org/abs/2311.15264
- Código: https://github.com/nicoboou/chada_vit
Segmentação de imagens médicas
Condução Autônoma
UniPAD: um paradigma universal de pré-treinamento para direção autônoma
- Artigo: https://arxiv.org/abs/2310.08370
- Código: https://github.com/Nightmare-n/UniPAD
Cam4DOcc: referência para previsão de ocupação 4D somente com câmera em aplicações de direção autônoma
- Artigo: https://arxiv.org/abs/2311.17663
- Código: https://github.com/haomo-ai/Cam4DOcc
Adaptadores baseados em memória para percepção on-line de cenas 3D
- Artigo: https://arxiv.org/abs/2403.06974
- Código: https://github.com/xuxw98/Online3D
Sinfonize a conclusão de cena semântica 3D com consultas de instância contextual
- Artigo: https://arxiv.org/abs/2306.15670
- Código: https://github.com/hustvl/Symphonies
Um conjunto de dados em grande escala do mundo real para percepção cooperativa na estrada
- Artigo: https://arxiv.org/abs/2403.10145
- Código: https://github.com/AIR-THU/DAIR-RCooper
Fusão adaptativa de profundidade de visão única e visão múltipla para direção autônoma
- Artigo: https://arxiv.org/abs/2403.07535
- Código: https://github.com/Junda24/AFNet
Análise de cena de tráfego por meio do conjunto de dados TSP6K
- Artigo: https://arxiv.org/pdf/2303.02835.pdf
- Código: https://github.com/PengtaoJiang/TSP6K
Nuvem de pontos 3D (nuvem de pontos 3D)
Detecção de objetos 3D
PTT: Transformador de trajetória de ponto para detecção eficiente de objetos 3D temporais
- Artigo: https://arxiv.org/abs/2312.08371
- Código: https://github.com/kuanchihhuang/PTT
UniMODE: detecção unificada de objetos 3D monoculares
- Artigo: https://arxiv.org/abs/2402.18573
Segmentação Semântica 3D
Edição de imagem
Editar um por todos: edição interativa de imagens em lote
- Página inicial: https://thaoshibe.github.io/edit-one-for-all
- Artigo: https://arxiv.org/abs/2401.10219
- Código: https://github.com/thaoshibe/edit-one-for-all
Edição de vídeo
MaskINT: edição de vídeo via transformadores mascarados interpolativos não autorregressivos
Visão de baixo nível
Modelos de difusão com eliminação de ruído residual
- Artigo: https://arxiv.org/abs/2308.13712
- Código: https://github.com/nachifur/RDDM
Impulsionando a restauração de imagens por meio de modelos pré-treinados
- Artigo: https://arxiv.org/abs/2403.06793
Super-resolução
SeD: discriminador semântico para super-resolução de imagens
- Artigo: https://arxiv.org/abs/2402.19387
- Código: https://github.com/lbc12345/SeD
APISR: Super-resolução de anime do mundo real inspirada na produção de anime
- Artigo: https://arxiv.org/abs/2403.01598
- Código: https://github.com/Kiteretsu77/APISR
Eliminação de ruído
Eliminação de ruído de imagem
Estimativa de pose humana 3D
Tokenizer de ampulheta para estimativa eficiente de pose humana 3D baseada em transformador
- Artigo: https://arxiv.org/abs/2311.12028
- Código: https://github.com/NationalGAILab/HoT
Geração de imagem
InstanceDiffusion: controle em nível de instância para geração de imagens
Página inicial: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Artigo: https://arxiv.org/abs/2402.03290
Código: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: uma conversão de texto em imagem com uso eficiente de recursos antes da geração de imagens
Página inicial: https://eclipse-t2i.vercel.app/
Artigo: https://arxiv.org/abs/2312.04655
Código: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: Geração de imagens com instrução multimodal
- Artigo: https://arxiv.org/abs/2401.01952
Modelos de difusão com eliminação de ruído residual
- Artigo: https://arxiv.org/abs/2308.13712
- Código: https://github.com/nachifur/RDDM
UniGS: Representação Unificada para Geração e Segmentação de Imagens
- Artigo: https://arxiv.org/abs/2312.01985
Controlador de geração de múltiplas instâncias para síntese de texto para imagem
- Artigo: https://arxiv.org/abs/2402.05408
- Código: https://github.com/limuloo/migc
SVGDreamer: geração de SVG guiada por texto com modelo de difusão
- Artigo: https://arxiv.org/abs/2312.16476
- Código: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: Controle de interação para modelo de difusão de texto para imagem
- Artigo: https://arxiv.org/abs/2312.05849
- Código: https://github.com/jiuntian/interactdiffusion
Ranni: domesticando a difusão de texto para imagem para um seguimento preciso de prompts
- Artigo: https://arxiv.org/abs/2311.17002
- Código: https://github.com/ali-vilab/Ranni
Geração de Vídeo
Vlogger: Transforme seu sonho em um vlog
- Artigo: https://arxiv.org/abs/2401.09414
- Código: https://github.com/Vchitect/Vlogger
VBench: conjunto abrangente de benchmark para modelos geradores de vídeo
- Página inicial: https://vchitect.github.io/VBench-project/
- Artigo: https://arxiv.org/abs/2311.17982
- Código: https://github.com/Vchitect/VBench
VMC: Personalização de movimento de vídeo usando adaptação de atenção temporal para modelos de difusão de texto para vídeo
- Homeoagem: https://video-motion-customization.github.io/
- Artigo: https://arxiv.org/abs/2312.00845
- Código: https://github.com/HyeonHo99/Video-Motion-Customization
Geração 3D
CityDreamer: modelo generativo composicional de cidades 3D ilimitadas
- Página inicial: https://haozhexie.com/project/city-dreamer/
- Artigo: https://arxiv.org/abs/2309.00610
- Código: https://github.com/hzxie/city-dreamer
LucidDreamer: Rumo à geração de texto para 3D de alta fidelidade por meio de correspondência de pontuação de intervalo
- Artigo: https://arxiv.org/abs/2311.11284
- Código: https://github.com/EnVision-Research/LucidDreamer
Compreensão do vídeo
MVBench: um benchmark abrangente de compreensão de vídeo multimodal
- Artigo: https://arxiv.org/abs/2311.17005
- Código: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
Destilação de Conhecimento
Padronização Logit na Destilação de Conhecimento
- Artigo: https://arxiv.org/abs/2403.01427
- Código: https://github.com/sunshangquan/logit-standardization-KD
Destilação eficiente de conjunto de dados via difusão Minimax
- Artigo: https://arxiv.org/abs/2311.15529
- Código: https://github.com/vimar-gu/MinimaxDiffusion
Correspondência estéreo
Campo aleatório neural de Markov para correspondência estéreo
- Artigo: https://arxiv.org/abs/2403.11193
- Código: https://github.com/aeolusguan/NMRF
Geração de gráfico de cena
HiKER-SGG: Geração de gráfico de cena robusta aprimorada com conhecimento hierárquico
- Página inicial: https://zhangce01.github.io/HiKER-SGG/
- Artigo: https://arxiv.org/abs/2403.12033
- Código: https://github.com/zhangce01/HiKER-SGG
Avaliação da qualidade do vídeo
KVQ: Avaliação de qualidade de vídeo caleidoscópio para vídeos curtos
Página inicial: https://lixinustc.github.io/projects/KVQ/
Artigo: https://arxiv.org/abs/2402.07220
Código: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
Conjuntos de dados
Um conjunto de dados em grande escala do mundo real para percepção cooperativa na estrada
- Artigo: https://arxiv.org/abs/2403.10145
- Código: https://github.com/AIR-THU/DAIR-RCooper
Análise de cena de tráfego por meio do conjunto de dados TSP6K
- Artigo: https://arxiv.org/pdf/2303.02835.pdf
- Código: https://github.com/PengtaoJiang/TSP6K
Outros
Reconhecimento de objetos como previsão do próximo token
- Artigo: https://arxiv.org/abs/2312.02142
- Código: https://github.com/kaiyuyue/nxtp
ParameterNet: Parâmetros são tudo que você precisa para pré-treinamento visual em larga escala de redes móveis
- Artigo: https://arxiv.org/abs/2306.14525
- Código: https://parameternet.github.io/
Composição perfeita de movimento humano com codificações posicionais combinadas
- Artigo: https://arxiv.org/abs/2402.15509
- Código: https://github.com/BarqueroGerman/FlowMDM
LL3DA: Ajuste de instrução visual interativa para compreensão, raciocínio e planejamento Omni-3D
Página inicial: https://ll3da.github.io/
Artigo: https://arxiv.org/abs/2311.18651
Código: https://github.com/Open3DA/LL3DA
CLOVA: um assistente visual de circuito fechado com uso e atualização de ferramentas
- Página inicial: https://clova-tool.github.io/
- Artigo: https://arxiv.org/abs/2312.10908
MoMask: modelagem mascarada generativa de movimentos humanos 3D
- Artigo: https://arxiv.org/abs/2312.00063
- Código: https://github.com/EricGuo5513/momask-codes
Verdade e conclusão do terreno amodal na natureza
- Página inicial: https://www.robots.ox.ac.uk/~vgg/research/amodal/
- Artigo: https://arxiv.org/abs/2312.17247
- Código: https://github.com/Championchess/Amodal-Completion-in-the-Wild
Base visual aprimorada por meio de explicações autoconsistentes
- Artigo: https://arxiv.org/abs/2312.04554
- Código: https://github.com/uvavision/SelfEQ
ImageNet-D: Comparando a robustez da rede neural em objetos sintéticos de difusão
- Página inicial: https://chenshuang-zhang.github.io/imagenet_d/
- Artigo: https://arxiv.org/abs/2403.18775
- Código: https://github.com/chenshuang-zhang/imagenet_d
Aprendendo com atividades de grupos humanos sintéticos
- Página inicial: https://cjerry1243.github.io/M3Act/
- Artigo https://arxiv.org/abs/2306.16772
- Código: https://github.com/cjerry1243/M3Act
Uma estrutura de decodificação cerebral entre assuntos
- Página inicial: https://littlepure2333.github.io/MindBridge/
- Artigo: https://arxiv.org/abs/2404.07850
- Código: https://github.com/littlepure2333/MindBridge
Predição densa multitarefa por meio de mistura de especialistas de baixo escalão
- Artigo: https://arxiv.org/abs/2403.17749
- Código: https://github.com/YuqiYang213/MLoRE
Aprendizagem contrastiva de mudança média para descoberta generalizada de categorias
- Página inicial: https://postech-cvlab.github.io/cms/
- Artigo: https://arxiv.org/abs/2404.09451
- Código: https://github.com/sua-choi/CMS