Colección de artículos y proyectos de código abierto de CVPR 2024 (artículos con código)
¡Las decisiones CVPR 2024 ya están disponibles en OpenReview!
Nota 1: ¡Todos pueden enviar ediciones y compartir artículos CVPR 2024 y proyectos de código abierto!
Nota 2: Para obtener detalles sobre artículos de conferencias de CV anteriores y otros artículos de CV de alta calidad y revisiones completas, consulte: https://github.com/amusi/daily-paper-computer-vision
¡Bienvenido a escanear el código QR para unirse al [Grupo de Intercambio Académico CVer], que es el planeta de conocimiento de IA en visión por computadora más grande! Actualizado diariamente, comparta los materiales de aprendizaje más recientes y de vanguardia en visión por computadora, pintura con IA, procesamiento de imágenes, aprendizaje profundo, conducción autónoma, imágenes médicas y AIGC. ¡Comience a aprender lo antes posible!
[Directorio de documentos de código abierto CVPR 2024]
- 3DGS (salpicadura gaussiana)
- avatares
- Columna vertebral
- ACORTAR
- MAE
- IA encarnada
- Ganar
- GNN
- Modelo multimodal de lenguaje grande (MLLM)
- Modelo de lenguaje grande (LLM)
- NAS
- LOC
- NRF
- DETR
- Inmediato
- Modelos de difusión
- ReID (reidentificación)
- Distribución de cola larga (Long-Tail)
- Transformador de visión
- Visión-Lenguaje
- Aprendizaje autosupervisado
- Aumento de datos
- Detección de objetos
- Detección de anomalías
- Seguimiento de objetivos (seguimiento visual)
- Segmentación semántica
- Segmentación de instancias
- Segmentación panóptica
- Imagen Médica
- Segmentación de imágenes médicas
- Segmentación de objetos de vídeo
- Segmentación de instancias de vídeo
- Segmentación de imágenes de referencia
- Imagen mate
- Edición de imágenes
- Visión de bajo nivel
- Superresolución
- Eliminación de ruido
- Desenfocar
- Conducción autónoma
- Nube de puntos 3D
- Detección de objetos 3D
- Segmentación semántica 3D
- Seguimiento de objetos 3D
- Finalización de escena semántica 3D (Finalización de escena semántica 3D)
- Registro 3D
- Estimación de la postura humana en 3D
- Estimación de malla humana 3D
- Imagen Médica
- Generación de imágenes
- Generación de vídeo
- Generación 3D
- Comprensión del vídeo
- Detección de acción
- Detección de texto
- Destilación del conocimiento
- Poda modelo
- Compresión de imagen
- Reconstrucción 3D
- Estimación de profundidad
- Predicción de trayectoria
- Detección de carril
- Subtítulos de imágenes
- Respuesta visual a preguntas
- Reconocimiento de lengua de signos
- Predicción de vídeo
- Síntesis de vista novedosa
- Aprendizaje Zero-Shot (aprendizaje de muestra cero)
- Coincidencia estéreo
- Coincidencia de características
- Generación de gráficos de escena
- Representaciones neuronales implícitas
- Evaluación de la calidad de la imagen
- Evaluación de la calidad del vídeo
- Conjuntos de datos
- Nuevas tareas
- Otros
3DGS (salpicadura gaussiana)
Scaffold-GS: Gaussianos 3D estructurados para renderizado adaptable a la vista
- Página de inicio: https://city-super.github.io/scaffold-gs/
- Documento: https://arxiv.org/abs/2312.00109
- Código: https://github.com/city-super/Scaffold-GS
GPS-Gaussiano: dispersión gaussiana 3D generalizable por píxeles para síntesis de vistas de novelas humanas en tiempo real
- Página de inicio: https://shunyuanzheng.github.io/GPS-Gaussian
- Documento: https://arxiv.org/abs/2312.02155
- Código: https://github.com/ShunyuanZheng/GPS-Gaussian
GaussianAvatar: Hacia un modelado realista de avatares humanos a partir de un único vídeo mediante gaussianos 3D animables
- Documento: https://arxiv.org/abs/2312.02134
- Código: https://github.com/huliangxiao/GaussianAvatar
GaussianEditor: edición 3D rápida y controlable con salpicaduras gaussianas
- Documento: https://arxiv.org/abs/2311.14521
- Código: https://github.com/buaacyw/GaussianEditor
Gaussianos 3D deformables para la reconstrucción dinámica de escenas monoculares de alta fidelidad
- Página de inicio: https://ingra14m.github.io/Deformable-Gaussians/
- Documento: https://arxiv.org/abs/2309.13101
- Código: https://github.com/ingra14m/Deformable-3D-Gaussians
SC-GS: salpicaduras gaussianas escasamente controladas para escenas dinámicas editables
- Página de inicio: https://yihua7.github.io/SC-GS-web/
- Documento: https://arxiv.org/abs/2312.14937
- Código: https://github.com/yihua7/SC-GS
Función gaussiana del espacio-tiempo para síntesis de vista dinámica en tiempo real
- Página de inicio: https://oppo-us-research.github.io/SpacetimeGaussians-website/
- Documento: https://arxiv.org/abs/2312.16812
- Código: https://github.com/oppo-us-research/SpacetimeGaussians
DNGaussian: optimización de campos de radiación gaussianos 3D de vista dispersa con normalización de profundidad global-local
- Página de inicio: https://fictionarry.github.io/DNGaussian/
- Documento: https://arxiv.org/abs/2403.06912
- Código: https://github.com/Fictionarry/DNGaussian
Salpicadura gaussiana 4D para renderizado dinámico de escenas en tiempo real
- Documento: https://arxiv.org/abs/2310.08528
- Código: https://github.com/hustvl/4DGaussians
GaussianDreamer: generación rápida de texto a gaussianos 3D uniendo modelos de difusión 2D y 3D
- Documento: https://arxiv.org/abs/2310.08529
- Código: https://github.com/hustvl/GaussianDreamer
avatares
GaussianAvatar: Hacia un modelado realista de avatares humanos a partir de un único vídeo mediante gaussianos 3D animables
- Documento: https://arxiv.org/abs/2312.02134
- Código: https://github.com/huliangxiao/GaussianAvatar
Avatar simulado en tiempo real a partir de sensores montados en la cabeza
- Página de inicio: https://www.zhengyiluo.com/SimXR/
- Documento: https://arxiv.org/abs/2403.06862
Columna vertebral
RepViT: Revisando la CNN móvil desde la perspectiva de ViT
- Documento: https://arxiv.org/abs/2307.09283
- Código: https://github.com/THU-MIG/RepViT
TransNeXt: percepción visual foveal robusta para transformadores de visión
- Documento: https://arxiv.org/abs/2311.17132
- Código: https://github.com/DaiShiResearch/TransNeXt
ACORTAR
Alpha-CLIP: un modelo CLIP que se centra en donde quieras
- Documento: https://arxiv.org/abs/2312.03818
- Código: https://github.com/SunzeY/AlphaCLIP
FairCLIP: Aprovechar la equidad en el aprendizaje del lenguaje visual
- Documento: https://arxiv.org/abs/2403.19949
- Código: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
MAE
IA encarnada
EmbodiedScan: una suite holística de percepción 3D multimodal hacia la IA incorporada
- Página de inicio: https://tai-wang.github.io/embodiedscan/
- Documento: https://arxiv.org/abs/2312.16170
- Código: https://github.com/OpenRobotLab/EmbodiedScan
MP5: un sistema incorporado multimodal abierto en Minecraft a través de la percepción activa
- Página de inicio: https://iranqin.github.io/MP5.github.io/
- Documento: https://arxiv.org/abs/2312.07472
- Código: https://github.com/IranQin/MP5
LEMON: Aprendizaje de la relación de interacción 3D humano-objeto a partir de imágenes 2D
- Documento: https://arxiv.org/abs/2312.08963
- Código: https://github.com/yyvhang/lemon_3d
Ganar
LOC
Un estudio empírico de la ley de escala para OCR
- Documento: https://arxiv.org/abs/2401.00028
- Código: https://github.com/large-ocr-model/large-ocr-model.github.io
ODM: un enfoque de preentrenamiento de alineación adicional de texto e imagen para la detección y localización de texto en escenas
- Documento: https://arxiv.org/abs/2403.00303
- Código: https://github.com/PriNing/ODM
NRF
¿PIE-NeRF?: Elastodinámica interactiva basada en la física con NeRF
- Documento: https://arxiv.org/abs/2311.13099
- Código: https://github.com/FYTalon/pienerf/
DETR
Los DETR superan a los YOLO en detección de objetos en tiempo real
- Documento: https://arxiv.org/abs/2304.08069
- Código: https://github.com/lyuwenyu/RT-DETR
Salience DETR: mejora del transformador de detección con refinamiento del filtrado de saliencia jerárquica
- Documento: https://arxiv.org/abs/2403.16131
- Código: https://github.com/xiuqhou/Salience-DETR
Inmediato
Modelo multimodal de lenguaje grande (MLLM)
mPLUG-Owl2: Revolucionando el modelo de lenguaje grande multimodal con modalidad de colaboración
- Documento: https://arxiv.org/abs/2311.04257
- Código: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Aprendizaje de contexto de enlace para LLM multimodales
- Documento: https://arxiv.org/abs/2308.07891
- Código: https://github.com/isekai-portal/Link-Context-Learning/tree/main
OPERA: Aliviar las alucinaciones en modelos multimodales de lenguaje grande mediante penalización por exceso de confianza y asignación de retrospección
- Documento: https://arxiv.org/abs/2311.17911
- Código: https://github.com/shikiw/OPERA
Hacer que los modelos multimodales grandes comprendan indicaciones visuales arbitrarias
- Página de inicio: https://vip-llava.github.io/
- Documento: https://arxiv.org/abs/2312.00784
Pink: Revelando el poder de la comprensión referencial para películas multimodales
- Documento: https://arxiv.org/abs/2310.00582
- Código: https://github.com/SY-Xuan/Pink
Chat-UniVi: la representación visual unificada potencia los modelos de lenguaje grandes con comprensión de imágenes y videos
- Documento: https://arxiv.org/abs/2311.08046
- Código: https://github.com/PKU-YuanGroup/Chat-UniVi
OneLLM: un marco para alinear todas las modalidades con el lenguaje
- Documento: https://arxiv.org/abs/2312.03700
- Código: https://github.com/csuhan/OneLLM
Modelo de lenguaje grande (LLM)
VTimeLLM: Empodere a LLM para captar momentos de video
- Documento: https://arxiv.org/abs/2311.18445
- Código: https://github.com/huangb23/VTimeLLM
NAS
ReID (reidentificación)
Fichas mágicas: seleccione diversas fichas para la reidentificación de objetos multimodales
- Documento: https://arxiv.org/abs/2403.10254
- Código: https://github.com/924973292/EDITOR
Aprendizaje por correspondencia ruidosa para la reidentificación de personas mediante texto a imagen
Modelos de difusión
InstanceDiffusion: control a nivel de instancia para la generación de imágenes
Página de inicio: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Documento: https://arxiv.org/abs/2402.03290
Código: https://github.com/frank-xwang/InstanceDiffusion
Modelos de difusión de eliminación de ruido residual
- Documento: https://arxiv.org/abs/2308.13712
- Código: https://github.com/nachifur/RDDM
DeepCache: aceleración de modelos de difusión de forma gratuita
- Documento: https://arxiv.org/abs/2312.00858
- Código: https://github.com/horseee/DeepCache
DEADiff: un modelo eficiente de difusión de estilización con representaciones desenredadas
Página de inicio: https://tianhao-qi.github.io/DEADiff/
Documento: https://arxiv.org/abs/2403.06951
Código: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: Generación de SVG guiada por texto con modelo de difusión
- Documento: https://arxiv.org/abs/2312.16476
- Código: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: control de interacción para el modelo de difusión de texto a imagen
- Documento: https://arxiv.org/abs/2312.05849
- Código: https://github.com/jiuntian/interactdiffusion
MMA-Diffusion: ataque multimodal a modelos de difusión
- Documento: https://arxiv.org/abs/2311.17516
- Código: https://github.com/yangyijune/MMA-Diffusion
VMC: Personalización de movimiento de video mediante adaptación de atención temporal para modelos de difusión de texto a video
- Homeoage: https://video-motion-customization.github.io/
- Documento: https://arxiv.org/abs/2312.00845
- Código: https://github.com/HyeonHo99/Video-Motion-Customization
Transformador de visión
TransNeXt: percepción visual foveal robusta para transformadores de visión
- Documento: https://arxiv.org/abs/2311.17132
- Código: https://github.com/DaiShiResearch/TransNeXt
RepViT: Revisando la CNN móvil desde la perspectiva de ViT
- Documento: https://arxiv.org/abs/2307.09283
- Código: https://github.com/THU-MIG/RepViT
Una formación general y eficiente para transformadores mediante la expansión de tokens
- Documento: https://arxiv.org/abs/2404.00672
- Código: https://github.com/Osilly/TokenExpansion
Visión-Lenguaje
PromptKD: destilación rápida no supervisada para modelos de visión y lenguaje
- Documento: https://arxiv.org/abs/2403.02781
- Código: https://github.com/zhengli97/PromptKD
FairCLIP: Aprovechar la equidad en el aprendizaje del lenguaje visual
- Documento: https://arxiv.org/abs/2403.19949
- Código: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
Detección de objetos
Los DETR superan a los YOLO en detección de objetos en tiempo real
- Documento: https://arxiv.org/abs/2304.08069
- Código: https://github.com/lyuwenyu/RT-DETR
Impulsar la detección de objetos con la adaptación del dominio día-noche de disparo cero
- Documento: https://arxiv.org/abs/2312.01220
- Código: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation
YOLO-World: Detección de objetos de vocabulario abierto en tiempo real
- Documento: https://arxiv.org/abs/2401.17270
- Código: https://github.com/AILab-CVC/YOLO-World
Salience DETR: mejora del transformador de detección con refinamiento del filtrado de saliencia jerárquica
- Documento: https://arxiv.org/abs/2403.16131
- Código: https://github.com/xiuqhou/Salience-DETR
Detección de anomalías
Aprendizaje de heterogeneidad de anomalías para la detección de anomalías supervisada en conjunto abierto
- Documento: https://arxiv.org/abs/2310.12790
- Código: https://github.com/mala-lab/AHL
Seguimiento de objetos
Profundizando en la distribución de trayectoria de cola larga para el seguimiento de múltiples objetos
- Documento: https://arxiv.org/abs/2403.04700
- Código: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT
Segmentación semántica
Más fuertes, menos y superiores: aprovechar los modelos de Vision Foundation para la segmentación semántica generalizada de dominios
- Documento: https://arxiv.org/abs/2312.04265
- Código: https://github.com/w1oves/Rein
SED: un codificador-decodificador simple para la segmentación semántica de vocabulario abierto
- Documento: https://arxiv.org/abs/2311.15537
- Código: https://github.com/xb534/SED
Imagen Médica
Reincorporación de funciones: hacia el rendimiento básico a nivel de modelo en patología computacional
- Documento: https://arxiv.org/abs/2402.17228
- Código: https://github.com/DearCaat/RRT-MIL
VoCo: un marco de aprendizaje de contraste de volumen simple pero eficaz para el análisis de imágenes médicas en 3D
- Documento: https://arxiv.org/abs/2402.17300
- Código: https://github.com/Luffy03/VoCo
ChAda-ViT: Atención adaptativa de canales para el aprendizaje de representación conjunta de imágenes de microscopía heterogéneas
- Documento: https://arxiv.org/abs/2311.15264
- Código: https://github.com/nicoboou/chada_vit
Segmentación de imágenes médicas
Conducción autónoma
UniPAD: un paradigma universal de preentrenamiento para la conducción autónoma
- Documento: https://arxiv.org/abs/2310.08370
- Código: https://github.com/Nightmare-n/UniPAD
Cam4DOcc: punto de referencia para el pronóstico de ocupación 4D solo con cámara en aplicaciones de conducción autónoma
- Documento: https://arxiv.org/abs/2311.17663
- Código: https://github.com/haomo-ai/Cam4DOcc
Adaptadores basados en memoria para percepción de escenas 3D en línea
- Documento: https://arxiv.org/abs/2403.06974
- Código: https://github.com/xuxw98/Online3D
Sinfonizar la finalización de escenas semánticas 3D con consultas de instancias contextuales
- Documento: https://arxiv.org/abs/2306.15670
- Código: https://github.com/hustvl/Symphonies
Un conjunto de datos a gran escala del mundo real para la percepción cooperativa en la carretera
- Documento: https://arxiv.org/abs/2403.10145
- Código: https://github.com/AIR-THU/DAIR-RCooper
Fusión adaptativa de profundidad de vista única y vista múltiple para conducción autónoma
- Documento: https://arxiv.org/abs/2403.07535
- Código: https://github.com/Junda24/AFNet
Análisis de escenas de tráfico a través del conjunto de datos TSP6K
- Documento: https://arxiv.org/pdf/2303.02835.pdf
- Código: https://github.com/PengtaoJiang/TSP6K
Nube de puntos 3D (3D-Point-Cloud)
Detección de objetos 3D
PTT: transformador de trayectoria puntual para una detección eficiente de objetos 3D temporales
- Documento: https://arxiv.org/abs/2312.08371
- Código: https://github.com/kuanchihhuang/PTT
UniMODE: Detección unificada de objetos monoculares 3D
- Documento: https://arxiv.org/abs/2402.18573
Segmentación semántica 3D
Edición de imágenes
Edite uno para todos: edición interactiva de imágenes por lotes
- Página de inicio: https://thaoshibe.github.io/edit-one-for-all
- Documento: https://arxiv.org/abs/2401.10219
- Código: https://github.com/thaoshibe/edit-one-for-all
Edición de vídeo
MaskINT: Edición de vídeo mediante transformadores enmascarados interpolativos no autorregresivos
Visión de bajo nivel
Modelos de difusión de eliminación de ruido residual
- Documento: https://arxiv.org/abs/2308.13712
- Código: https://github.com/nachifur/RDDM
Impulsar la restauración de imágenes a través de modelos anteriores a partir de modelos previamente entrenados
- Documento: https://arxiv.org/abs/2403.06793
Superresolución
SeD: discriminador semántico para superresolución de imágenes
- Documento: https://arxiv.org/abs/2402.19387
- Código: https://github.com/lbc12345/SeD
APISR: Superresolución de anime del mundo real inspirada en la producción de anime
- Documento: https://arxiv.org/abs/2403.01598
- Código: https://github.com/Kiteretsu77/APISR
Eliminación de ruido
Eliminación de ruido de imagen
Estimación de la postura humana en 3D
Tokenizador de reloj de arena para una estimación eficiente de la pose humana en 3D basada en transformadores
- Documento: https://arxiv.org/abs/2311.12028
- Código: https://github.com/NationalGAILab/HoT
Generación de imágenes
InstanceDiffusion: control a nivel de instancia para la generación de imágenes
Página de inicio: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
Documento: https://arxiv.org/abs/2402.03290
Código: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: una versión anterior de conversión de texto a imagen con uso eficiente de recursos para generaciones de imágenes
Página de inicio: https://eclipse-t2i.vercel.app/
Documento: https://arxiv.org/abs/2312.04655
Código: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: Generación de imágenes con instrucción multimodal
- Documento: https://arxiv.org/abs/2401.01952
Modelos de difusión de eliminación de ruido residual
- Documento: https://arxiv.org/abs/2308.13712
- Código: https://github.com/nachifur/RDDM
UniGS: Representación unificada para generación y segmentación de imágenes
- Documento: https://arxiv.org/abs/2312.01985
Controlador de generación de instancias múltiples para síntesis de texto a imagen
- Documento: https://arxiv.org/abs/2402.05408
- Código: https://github.com/limuloo/migc
SVGDreamer: Generación de SVG guiada por texto con modelo de difusión
- Documento: https://arxiv.org/abs/2312.16476
- Código: https://ximinng.github.io/SVGDreamer-project/
InteractDiffusion: control de interacción para el modelo de difusión de texto a imagen
- Documento: https://arxiv.org/abs/2312.05849
- Código: https://github.com/jiuntian/interactdiffusion
Ranni: Domar la difusión de texto a imagen para un seguimiento preciso de las indicaciones
- Documento: https://arxiv.org/abs/2311.17002
- Código: https://github.com/ali-vilab/Ranni
Generación de vídeo
Vlogger: haz de tu sueño un vlog
- Documento: https://arxiv.org/abs/2401.09414
- Código: https://github.com/Vchitect/Vlogger
VBench: conjunto completo de pruebas comparativas para modelos generativos de vídeo
- Página de inicio: https://vchitect.github.io/VBench-project/
- Documento: https://arxiv.org/abs/2311.17982
- Código: https://github.com/Vchitect/VBench
VMC: personalización de movimiento de video mediante adaptación de atención temporal para modelos de difusión de texto a video
- Homeoage: https://video-motion-customization.github.io/
- Documento: https://arxiv.org/abs/2312.00845
- Código: https://github.com/HyeonHo99/Video-Motion-Customization
generación 3D
CityDreamer: modelo generativo composicional de ciudades 3D ilimitadas
- Página de inicio: https://haozhexie.com/project/city-dreamer/
- Documento: https://arxiv.org/abs/2309.00610
- Código: https://github.com/hzxie/city-dreamer
LucidDreamer: Hacia la generación de texto a 3D de alta fidelidad mediante la coincidencia de puntuaciones por intervalos
- Documento: https://arxiv.org/abs/2311.11284
- Código: https://github.com/EnVision-Research/LucidDreamer
Comprensión del vídeo
MVBench: un punto de referencia integral de comprensión de vídeo multimodal
- Documento: https://arxiv.org/abs/2311.17005
- Código: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
Destilación del conocimiento
Estandarización Logit en la destilación del conocimiento
- Documento: https://arxiv.org/abs/2403.01427
- Código: https://github.com/sunshangquan/logit-standardization-KD
Destilación eficiente de conjuntos de datos mediante difusión Minimax
- Documento: https://arxiv.org/abs/2311.15529
- Código: https://github.com/vimar-gu/MinimaxDiffusion
Coincidencia estéreo
Campo aleatorio neuronal de Markov para coincidencia estéreo
- Documento: https://arxiv.org/abs/2403.11193
- Código: https://github.com/aeolusguan/NMRF
Generación de gráficos de escena
HiKER-SGG: generación sólida de gráficos de escena mejorada con conocimiento jerárquico
- Página de inicio: https://zhangce01.github.io/HiKER-SGG/
- Documento: https://arxiv.org/abs/2403.12033
- Código: https://github.com/zhangce01/HiKER-SGG
Evaluación de la calidad del vídeo
KVQ: Evaluación de la calidad de video de Kaleidoscope para videos de formato corto
Página de inicio: https://lixinustc.github.io/projects/KVQ/
Documento: https://arxiv.org/abs/2402.07220
Código: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
Conjuntos de datos
Un conjunto de datos a gran escala del mundo real para la percepción cooperativa en la carretera
- Documento: https://arxiv.org/abs/2403.10145
- Código: https://github.com/AIR-THU/DAIR-RCooper
Análisis de escenas de tráfico a través del conjunto de datos TSP6K
- Documento: https://arxiv.org/pdf/2303.02835.pdf
- Código: https://github.com/PengtaoJiang/TSP6K
Otros
Reconocimiento de objetos como predicción del siguiente token
- Documento: https://arxiv.org/abs/2312.02142
- Código: https://github.com/kaiyuyue/nxtp
ParameterNet: los parámetros son todo lo que necesita para el preentrenamiento visual a gran escala de redes móviles
- Documento: https://arxiv.org/abs/2306.14525
- Código: https://parameternet.github.io/
Composición perfecta del movimiento humano con codificaciones posicionales combinadas
- Documento: https://arxiv.org/abs/2402.15509
- Código: https://github.com/BarqueroGerman/FlowMDM
LL3DA: Ajuste de instrucción visual interactiva para la comprensión, el razonamiento y la planificación de Omni-3D
Página de inicio: https://ll3da.github.io/
Documento: https://arxiv.org/abs/2311.18651
Código: https://github.com/Open3DA/LL3DA
CLOVA: un asistente visual de bucle cerrado con uso y actualización de herramientas
- Página de inicio: https://clova-tool.github.io/
- Documento: https://arxiv.org/abs/2312.10908
MoMask: modelado generativo enmascarado de movimientos humanos 3D
- Documento: https://arxiv.org/abs/2312.00063
- Código: https://github.com/EricGuo5513/momask-codes
Verdad y finalización del terreno amodal en la naturaleza
- Página de inicio: https://www.robots.ox.ac.uk/~vgg/research/amodal/
- Documento: https://arxiv.org/abs/2312.17247
- Código: https://github.com/Championchess/Amodal-Completion-in-the-Wild
Base visual mejorada a través de explicaciones autoconsistentes
- Documento: https://arxiv.org/abs/2312.04554
- Código: https://github.com/uvavision/SelfEQ
ImageNet-D: Evaluación comparativa de la robustez de la red neuronal en objetos sintéticos de difusión
- Página de inicio: https://chenshuang-zhang.github.io/imagenet_d/
- Documento: https://arxiv.org/abs/2403.18775
- Código: https://github.com/chenshuang-zhang/imagenet_d
Aprendiendo de las actividades de grupos humanos sintéticos
- Página de inicio: https://cjerry1243.github.io/M3Act/
- Documento https://arxiv.org/abs/2306.16772
- Código: https://github.com/cjerry1243/M3Act
Un marco de decodificación cerebral multidisciplinar
- Página de inicio: https://littlepure2333.github.io/MindBridge/
- Documento: https://arxiv.org/abs/2404.07850
- Código: https://github.com/littlepure2333/MindBridge
Predicción densa para múltiples tareas mediante una combinación de expertos de bajo rango
- Documento: https://arxiv.org/abs/2403.17749
- Código: https://github.com/YuqiYang213/MLoRE
Aprendizaje contrastivo por cambio de media para el descubrimiento de categorías generalizadas
- Página de inicio: https://postech-cvlab.github.io/cms/
- Documento: https://arxiv.org/abs/2404.09451
- Código: https://github.com/sua-choi/CMS