Reúna algunos documentos sobre modelos mundiales (para conducción autónoma).
Si encuentra algunos artículos ignorados, no dude en crear solicitudes de extracción , abrir incidencias o enviarme un correo electrónico a Qi Wang . Se aceptan contribuciones de cualquier tipo para hacer esta lista más completa.
Si encuentra útil este repositorio, considere darnos una estrella .
¡Siéntete libre de compartir esta lista con otros! ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
Track #4: Modelo mundial predictivo.
Al servir como una representación espacio-temporal abstracta de la realidad, el modelo mundial puede predecir estados futuros basándose en el estado actual. El proceso de aprendizaje de modelos mundiales tiene el potencial de elevar un modelo básico previamente entrenado al siguiente nivel. Dadas las entradas de visión únicamente, la red neuronal genera nubes de puntos en el futuro para testificar su capacidad de predicción del mundo.
CVPR 2023 Workshop on Autonomous Driving
DESAFÍO 3: DESAFÍOS ARGOVERSE, Previsión de ocupación 3D utilizando el conjunto de datos de sensores Argoverse 2. Predice la ocupación del espacio-tiempo del mundo durante los próximos 3 segundos.
Yann LeCun
: Un camino hacia la inteligencia de las máquinas autónomas [artículo] [Vídeo]CVPR'23 WAD
: Ashok Elluswamy, Tesla [vídeo]Wayve
presenta GAIA-1: un modelo de IA generativa de vanguardia para la autonomía [blog]Los modelos mundiales son la base para la capacidad de predecir lo que podría suceder a continuación, lo cual es de fundamental importancia para la conducción autónoma. Pueden actuar como un simulador aprendido o un experimento mental de "qué pasaría si" para la planificación o el aprendizaje por refuerzo (RL) basado en modelos. Al incorporar modelos mundiales en nuestros modelos de conducción, podemos permitirles comprender mejor las decisiones humanas y, en última instancia, generalizarlas a situaciones más reales.
WACVW 2024
[Documento] [Código]ISSREW
[PapelarXiv 2024.11
[Documento]arXiv 2024.11
[Documento]arXiv 2024.7
[Papel] [Código]arXiv 2024.5
[Papel] [Código]2024.3, arxiv
[Papel]TITS
[Papel]NeurIPS 2024
[Papel] [Código]NeurIPS 2024
[Artículo] [Proyecto]ECCV 2024
[Artículo]ECCV 2024
[Artículo] [Código]ECCV 2024
[Artículo] [Código]ECCV 2024
[Artículo] [Código]ECCV 2024
[Artículo] [Código]ECCV 2024
[Artículo]ECCV 2024
[Artículo] [Código]ECCV 2024
[Código]ECCV 2024
[Artículo] [Código]ECCV 2024
[Artículo] [Código]ICML 2024
[artículo]CVPR 2024
[Papel] [Código]CVPR 2024
[Documento] [Datos]CVPR 2024
[Documento] [Código]CVPR 2024
[Papel] [Código]CVPR 2024
[artículo]CVPR 2024
[Documento] [Código]CVPR 2024
[Documento] [Código]ICLR 2024
[Documento] [Código]ICLR 2024
[artículo]ICLR 2024
[Documento] [Código]arXiv 2024.12
[Papel] [Código]arXiv 2024.12
[Documento] [Proyecto]arXiv 2024.12
[Documento]arXiv 2024.12
[Documento] [Proyecto]arXiv 2024.12
[Papel] [Código]arXiv 2024.12
[Papel] [Código]arXiv 2024.12
[Papel] [Código]arXiv 2024.12
[Documento]arXiv 2024.12
[Documento] [Página del proyecto]arXiv 2024.11
[Papel] [Código]arXiv 2024.11
[Documento]arXiv 2024.11
[Documento] [Página del proyecto]arXiv 2024.10
[Documento] [Página del proyecto]arXiv 2024.10
[Documento] [Página del proyecto]arXiv 2024.10
[Documento] [Página del proyecto]arXiv 2024.9
[Papel] [Código]arXiv 2024.9
[Documento]arXiv 2024.9
[Papel] [Código]arXiv 2024.9
[Documento]arXiv 2024.9
[Documento]arXiv 2024.8
[Documento]arXiv 2024.8
[Documento]arXiv 2024.7
[Papel] [Código]arXiv 2024.7
[Documento]arXiv 2024.6
[Documento]arXiv 2024.6
[Papel] [Código]arXiv 2024.6
[Papel] [Código]arXiv 2024.6
[Papel] [Código]arXiv 2024.6
[Papel] [Código]arXiv 2024.5
[Papel] [Código]arXiv 2024.5
[Papel] [Código]arXiv 2024.5
[Papel] [Código]arXiv 2024.5
[Papel] [Código]arXiv 2024.4
[Papel] [Código]arXiv 2024.3
[Documento] [Proyecto]arXiv 2024.3
[Papel] [Código]ICRA 2023
[Documento] [Código]arXiv 2023.12
[Papel] [Código]arXiv 2023.11
[Documento]arXiv 2023.11
[Documento]arXiv 2023.9
[Documento]arXiv 2023.9
[Documento]arXiv 2023.8
[Papel] [Código]NeurIPS 2022
[Papel] [Código]NeurIPS 2022 Spotlight
[Papel] [Código]ICRA 2022
[Documento]IROS 2022
[Artículo]NeurIPS 2022 workshop
[Artículo] NVIDIA
[Papel] [Código] [ SMAC ] Respuestas fundamentadas para el problema de la toma de decisiones de múltiples agentes a través del modelo mundial generativo. NeurIPS 2024
[artículo]
[ CoWorld ] Creación de RL sin conexión en línea: modelos de mundo colaborativo para el aprendizaje por refuerzo visual sin conexión. NeurIPS 2024
[Documento] [Sitio web] [Código de antorcha]
[ Diamond ] Difusión del modelado mundial: los detalles visuales importan en Atari. NeurIPS 2024
[Papel] [Código]
PIVOT-R : modelo mundial consciente de waypoints impulsado por primitivos para manipulación robótica. NeurIPS 2024
[artículo]
[ MUN ] Modelos del mundo del aprendizaje para la navegación de objetivos sin restricciones. NeurIPS 2024
[Papel] [Código]
VidMan : explotación de la dinámica implícita del modelo de difusión de vídeo para una manipulación eficaz de robots. NeurIPS 24
[Papel]
Modelos de mundos adaptativos : comportamientos de aprendizaje mediante imaginación latente en condiciones no estacionarias. NeurIPSW 2024
[artículo]
Surgimiento de modelos mundiales implícitos a partir de agentes mortales. NeurIPSW 2024
[artículo]
Representación mundial causal en el modelo GPT. NeurIPSW 2024
[artículo]
PreLAR : preentrenamiento del modelo mundial con representación de acciones que se pueden aprender. ECCV 2024
[Artículo] [Código]
[ CWM ] Comprensión de la dinámica física con modelos de mundos contrafactuales. ECCV 2024
[Artículo] [Código]
ManiGaussian : salpicaduras dinámicas gaussianas para manipulación robótica multitarea. ECCV 2024
[Artículo] [Código]
[ DWL ] Avance de la locomoción humanoide: dominio de terrenos desafiantes con el aprendizaje del modelo mundial de eliminación de ruido. RSS 2024 (Best Paper Award Finalist)
[Artículo]
[ LLM-Sim ] ¿Pueden los modelos de lenguaje servir como simuladores de mundos basados en texto? ACL
[Papel] [Código]
RoboDreamer : aprendizaje de modelos de mundos compositivos para la imaginación de robots. ICML 2024
[Documento] [Código]
[ Δ-IRIS ] Modelos mundiales eficientes con tokenización consciente del contexto. ICML 2024
[Documento] [Código]
AD3 : La acción implícita es la clave para que los modelos mundiales distingan los diversos distractores visuales. ICML 2024
[artículo]
Hieros : imaginación jerárquica en modelos mundiales de secuencia espacial de estados estructurados. ICML 2024
[artículo]
[ HRSSM ] Aprendizaje de representaciones robustas dinámicas latentes para modelos mundiales. ICML 2024
[Documento] [Código]
HarmonyDream : Armonización de tareas dentro de modelos mundiales. ICML 2024
[Documento] [Código]
[ REM ] Mejora de los modelos mundiales basados en tokens con predicción de observación paralela. ICML 2024
[Documento] [Código]
¿Los modelos de mundo transformador ofrecen mejores gradientes de políticas? ICML 2024
[artículo]
TD-MPC2 : modelos mundiales robustos y escalables para control continuo. ICLR 2024
[Papel] [Código de antorcha]
DreamSmooth : mejora del aprendizaje por refuerzo basado en modelos mediante el suavizado de recompensas. ICLR 2024
[artículo]
[ R2I ] Dominar las tareas de memoria con modelos mundiales. ICLR 2024
[Documento] [Código JAX]
MAMBA : un enfoque de modelo mundial eficaz para el aprendizaje por meta-refuerzo. ICLR 2024
[Documento] [Código]
Aprendizaje interactivo de flotas de robots multitarea con modelos del mundo visual. CoRL 2024
[Documento] [Código]
Hacia modelos mundiales físicamente interpretables : representaciones significativas débilmente supervisadas para la predicción de trayectorias visuales. arXiv 2024.12
[Documento]
Sueño para manipular : modelos compositivos del mundo que potencian el aprendizaje por imitación de robots con imaginación. arXiv 2024.12
[Documento] [Proyecto]
Los transformadores utilizan modelos mundiales causales en tareas de resolución de laberintos. arXiv 2024.12
[Documento]
Owl-1 : modelo Omni World para una generación de videos largos y consistentes. arXiv 2024.12
[Papel] [Código]
StoryWeaver : un modelo mundial unificado para la personalización de personajes de historias mejorada por el conocimiento. arXiv 2024.12
[Papel] [Código]
SimuDICE : optimización de políticas fuera de línea mediante actualizaciones del modelo mundial y estimación DICE. BNAIC 2024
[Artículo]
Exploración limitada con la incertidumbre del modelo mundial en el algoritmo de aprendizaje por refuerzo de actor-crítico suave. arXiv 2024.12
[Documento]
Genie 2 : un modelo mundial de fundación a gran escala. 2024.12
Google DeepMind
[Blog]
[ NWM ] Modelos mundiales de navegación. arXiv 2024.12
Yann LeCun
[Artículo] [Proyecto]
The Matrix : generación mundial de horizonte infinito con control de movimiento en tiempo real. arXiv 2024.12
[Documento] [Proyecto]
Instrucción de movimiento : control de la generación de video con trayectorias de movimiento. arXiv 2024.12
[Documento] [Proyecto]
Explorador del mundo generativo. arXiv 2024.11
[Documento] [Proyecto]
[ WebDreamer ] ¿Es su LLM en secreto un modelo mundial de Internet? Planificación basada en modelos para agentes web. arXiv 2024.11
[Papel] [Código]
BALLENA : Hacia modelos mundiales generalizables y escalables para la toma de decisiones incorporada. arXiv 2024.11
[Documento]
DINO-WM : Los modelos mundiales con características visuales previamente entrenadas permiten una planificación de disparo cero. arXiv 2024.11
Yann LeCun
[Artículo]
Leyes de escala para agentes de preformación y modelos mundiales. arXiv 2024.11
[Documento]
[ Phyworld ] ¿Qué tan lejos está la generación de videos del modelo mundial: una perspectiva de la ley física? arXiv 2024.11
[Documento] [Proyecto]
IGOR : Las representaciones de Image-GOal son las unidades de control atómico para los modelos básicos en la IA incorporada. arXiv 2024.10
[Documento] [Proyecto]
EVA : un modelo mundial encarnado para la anticipación de vídeos futuros. arXiv 2024.10
[Documento]
VisualPredicator : aprendizaje de modelos del mundo abstracto con predicados neurosimbólicos para la planificación de robots. arXiv 2024.10
[Documento]
[ LLMCWM ] Los agentes del lenguaje se encuentran con la causalidad: uniendo los LLM y los modelos mundiales causales. arXiv 2024.10
[Papel] [Código]
Modelos mundiales sin recompensas para el aprendizaje por imitación en línea. arXiv 2024.10
[Documento]
Agentes web con modelos mundiales : aprendizaje y aprovechamiento de la dinámica del entorno en la navegación web. arXiv 2024.10
[Documento]
[ GLIMO ] Fundamentar modelos de lenguajes grandes en un entorno incorporado con modelos de mundos imperfectos. arXiv 2024.10
[Documento]
AVID : Adaptación de los modelos de difusión de vídeo a los modelos mundiales. arXiv 2024.10
[Papel] [Código]
[ WMP ] Percepción basada en modelos mundiales para la locomoción visual de las piernas. arXiv 2024.9
[Documento] [Proyecto]
[ OSWM ] Modelos mundiales de una sola vez que utilizan un transformador entrenado en un previo sintético. arXiv 2024.9
[Documento]
R-AIF : resolución de tareas robóticas de escasa recompensa a partir de píxeles con inferencia activa y modelos mundiales. arXiv 2024.9
[Documento]
Representación de información posicional en modelos mundiales generativos para la manipulación de objetos. arXiv 2024.9
[Documento]
Convirtiendo grandes modelos de lenguaje en modelos mundiales con conocimiento de condiciones previas y efectos. arXiv 2024.9
[Documento]
DexSim2Real$^2$ : Construcción de un modelo mundial explícito para una manipulación diestra de objetos articulados precisos. arXiv 2024.9
[Documento]
Exploración eficiente y aprendizaje discriminativo de modelos mundiales con una abstracción centrada en objetos. arXiv 2024.8
[Documento]
[ MoReFree ] Los modelos mundiales aumentan la autonomía en el aprendizaje por refuerzo. arXiv 2024.8
[Documento] [Proyecto]
UrbanWorld : un modelo de mundo urbano para la generación de ciudades en 3D. arXiv 2024.7
[Documento]
PWM : aprendizaje de políticas con modelos mundiales grandes. arXiv 2024.7
[Papel] [Código]
Predecir versus actuar : una compensación entre el modelado mundial y el modelado de agentes. arXiv 2024.7
[Documento]
[ GenRL ] Modelos mundiales de fundamentos multimodales para agentes encarnados generalistas. arXiv 2024.6
[Papel] [Código]
[ DLLM ] Modelos mundiales con sugerencias de modelos de lenguaje grandes para el logro de objetivos. arXiv 2024.6
[Documento]
Mapa cognitivo para modelos lingüísticos: planificación óptima mediante la representación verbal del modelo mundial. arXiv 2024.6
[Documento]
CityBench : Evaluación de las capacidades del modelo de lenguaje grande como modelo mundial. arXiv 2024.6
[Papel] [Código]
CoDreamer : modelos mundiales descentralizados basados en la comunicación. arXiv 2024.6
[Documento]
[ EBWM ] Modelos mundiales basados en energía de inspiración cognitiva. arXiv 2024.6
[Documento]
Evaluación del modelo mundial implícito en un modelo generativo. arXiv 2024.6
[Papel] [Código]
Transformadores y codificación de ranuras para un modelado eficiente del mundo físico. arXiv 2024.5
[Papel] [Código]
[ Titiritero ] Modelos de mundos jerárquicos como controladores humanoides visuales de cuerpo entero. arXiv 2024.5
Yann LeCun
[Papel] [Código]
Modelo BWArea : modelo del mundo del aprendizaje, dinámica inversa y política para la generación de lenguaje controlable. arXiv 2024.5
[Documento]
Pandora : hacia un modelo mundial general con acciones de lenguaje natural y estados de vídeo. [Papel] [Código]
[ WKM ] Planificación de agentes con modelo de conocimiento mundial. arXiv 2024.5
[Papel] [Código]
Newton ™: el primer modelo básico de su tipo para comprender el mundo físico. Archetype AI
[Blog]
Competir y componer : aprender mecanismos independientes para modelos de mundos modulares. arXiv 2024.4
[Documento]
MagicTime : modelos de generación de vídeos time-lapse como simuladores metamórficos. arXiv 2024.4
[Papel] [Código]
Soñar con muchos mundos : aprender modelos de mundos contextuales ayuda a la generalización de tiro cero. arXiv 2024.3
[Papel] [Código]
ManiGaussian : salpicaduras dinámicas gaussianas para manipulación robótica multitarea. arXiv 2024.3
[Papel] [Código]
V-JEPA : Arquitectura predictiva de incrustación de juntas de vídeo. Meta AI
Yann LeCun
[Blog] [Documento] [Código]
[ IWM ] Aprendizaje y aprovechamiento de modelos mundiales en el aprendizaje de representación visual. Meta AI
[papel]
Genie : entornos interactivos generativos. DeepMind
[artículo] [Blog]
[ Sora ] Modelos de generación de vídeo como simuladores de mundos. OpenAI
[Informe técnico]
[ LWM ] Modelo mundial en lenguaje y video de un millón de longitud con RingAttention. arXiv 2024.2
[Papel] [Código]
Planificación con un conjunto de modelos mundiales. OpenReview
[artículo]
WorldDreamer : Hacia modelos mundiales generales para la generación de videos mediante la predicción de tokens enmascarados. arXiv 2024.1
[Papel] [Código]
ICLR 2023 Oral
[Documento] [Código de antorcha]NIPS 2023
[Papel] [Código de antorcha]ICLR 2023
[Documento] [Código de antorcha]arXiv 2023.8
[Papel] [Código JAX]arXiv 2023.1
[Papel] [Código JAX] [Código de antorcha]ICML 2022
[Papel][Código de antorcha]ICML 2022
[Documento] [Código TF]CoRL 2022
[Documento] [Código TF]NIPS 2022
[Papel] [Código TF]NIPS 2022 Spotlight
[Papel] [Código de antorcha]arXiv 2022.3
[Documento]ICLR 2021
[Papel] [Código TF] [Código de antorcha]ICRA 2021
[Documento]ICLR 2020
[Documento] [Código TF] [Código de antorcha]ICML 2020
[Documento] [Código TF] [Código de antorcha]NIPS 2018 Oral
[Artículo]