Récupérez quelques papiers sur les modèles mondiaux (pour la conduite autonome).
Si vous trouvez des articles ignorés, n'hésitez pas à créer des demandes d'extraction , des problèmes ouverts ou à m'envoyer un e-mail / Qi Wang . Les contributions sous quelque forme que ce soit pour rendre cette liste plus complète sont les bienvenues.
Si vous trouvez ce référentiel utile, pensez à nous donner une étoile ?.
N'hésitez pas à partager cette liste avec d'autres ! ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
Track #4 : Modèle mondial prédictif.
Servant de représentation spatio-temporelle abstraite de la réalité, le modèle mondial peut prédire les états futurs sur la base de l’état actuel. Le processus d'apprentissage des modèles mondiaux a le potentiel d'élever un modèle de base pré-entraîné au niveau supérieur. Compte tenu des entrées de vision uniquement, le réseau neuronal génère des nuages de points dans le futur pour témoigner de sa capacité prédictive du monde.
CVPR 2023 Workshop on Autonomous Driving
DÉFI 3 : DÉFIS ARGOVERSE, prévision d'occupation 3D à l'aide de l'ensemble de données de capteurs Argoverse 2. Prédisez l’occupation spatio-temporelle du monde pour les 3 prochaines secondes.
Yann LeCun
: Une voie vers une intelligence artificielle autonome [article] [Vidéo]CVPR'23 WAD
- Ashok Elluswamy, Tesla [Vidéo]Wayve
présente GAIA-1 : un modèle d'IA générative de pointe pour l'autonomie [blog]Les modèles mondiaux constituent la base de la capacité de prédire ce qui pourrait se passer ensuite, ce qui est d’une importance fondamentale pour la conduite autonome. Ils peuvent agir comme un simulateur appris ou comme une expérience de pensée mentale de type « et si » pour l'apprentissage par renforcement (RL) ou la planification basé sur un modèle. En incorporant des modèles mondiaux dans nos modèles de conduite, nous pouvons leur permettre de mieux comprendre les décisions humaines et, à terme, de les généraliser à des situations plus réelles.
WACVW 2024
[Papier] [Code]ISSREW
[PapierarXiv 2024.11
[Papier]arXiv 2024.11
[Papier]arXiv 2024.7
[Papier] [Code]arXiv 2024.5
[Papier] [Code]2024.3, arxiv
[Papier]TITS
[Papier]NeurIPS 2024
[Papier] [Code]NeurIPS 2024
[Article] [Projet]ECCV 2024
[Papier]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier]ECCV 2024
[Papier] [Code]ECCV 2024
[Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ICML 2024
[Papier]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier] [Données]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier] [Code]ICLR 2024
[Papier] [Code]ICLR 2024
[Papier]ICLR 2024
[Papier] [Code]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier] [Projet]arXiv 2024.12
[Papier]arXiv 2024.12
[Papier] [Projet]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier]arXiv 2024.12
[Papier] [Page du projet]arXiv 2024.11
[Papier] [Code]arXiv 2024.11
[Papier]arXiv 2024.11
[Papier] [Page du projet]arXiv 2024.10
[Papier] [Page du projet]arXiv 2024.10
[Papier] [Page du projet]arXiv 2024.10
[Papier] [Page du projet]arXiv 2024.9
[Papier] [Code]arXiv 2024.9
[Papier]arXiv 2024.9
[Papier] [Code]arXiv 2024.9
[Papier]arXiv 2024.9
[Papier]arXiv 2024.8
[Papier]arXiv 2024.8
[Papier]arXiv 2024.7
[Papier] [Code]arXiv 2024.7
[Papier]arXiv 2024.6
[Papier]arXiv 2024.6
[Papier] [Code]arXiv 2024.6
[Papier] [Code]arXiv 2024.6
[Papier] [Code]arXiv 2024.6
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.4
[Papier] [Code]arXiv 2024.3
[Papier] [Projet]arXiv 2024.3
[Papier] [Code]ICRA 2023
[Papier] [Code]arXiv 2023.12
[Papier] [Code]arXiv 2023.11
[Papier]arXiv 2023.11
[Papier]arXiv 2023.9
[Papier]arXiv 2023.9
[Papier]arXiv 2023.8
[Papier] [Code]NeurIPS 2022
[Papier] [Code]NeurIPS 2022 Spotlight
[Papier] [Code]ICRA 2022
[Papier]IROS 2022
[Papier]NeurIPS 2022 workshop
[Papier] NVIDIA
[Papier] [Code] [ SMAC ] Réponses fondées au problème de prise de décision multi-agents grâce au modèle mondial génératif. NeurIPS 2024
[Papier]
[ CoWorld ] Mise en ligne du RL hors ligne : modèles mondiaux collaboratifs pour l'apprentissage par renforcement visuel hors ligne. NeurIPS 2024
[Papier] [Site Web] [Torch Code]
[ Diamond ] Diffusion pour la modélisation mondiale : les détails visuels comptent dans Atari. NeurIPS 2024
[Papier] [Code]
PIVOT-R : Modèle mondial prenant en compte les points de cheminement et piloté par des primitifs pour la manipulation robotique. NeurIPS 2024
[Papier]
[ MUN ]Apprentissage de modèles mondiaux pour une navigation vers des objectifs sans contrainte. NeurIPS 2024
[Papier] [Code]
VidMan : Exploiter la dynamique implicite du modèle de diffusion vidéo pour une manipulation efficace des robots. NeurIPS 24
[Papier]
Modèles du monde adaptatifs : comportements d'apprentissage par imagination latente en situation de non-stationnarité. NeurIPSW 2024
[Papier]
Émergence de modèles de monde implicites à partir d'agents mortels. NeurIPSW 2024
[Papier]
Représentation causale du monde dans le modèle GPT. NeurIPSW 2024
[Papier]
PreLAR : Pré-formation sur le modèle mondial avec représentation d'action apprenable. ECCV 2024
[Papier] [Code]
[ MCG ] Comprendre la dynamique physique avec la modélisation contrefactuelle du monde. ECCV 2024
[Papier] [Code]
ManiGaussian : Splatting gaussien dynamique pour la manipulation robotique multitâche. ECCV 2024
[Papier] [Code]
[ DWL ] Faire progresser la locomotion humanoïde : maîtriser les terrains difficiles grâce à l'apprentissage du modèle mondial débruitant. RSS 2024 (Best Paper Award Finalist)
[Papier]
[ LLM-Sim ] Les modèles linguistiques peuvent-ils servir de simulateurs de monde basés sur du texte ? ACL
[Papier] [Code]
RoboDreamer : Apprentissage de modèles de monde compositionnels pour l'imagination des robots. ICML 2024
[Papier] [Code]
[ Δ-IRIS ] Modèles mondiaux efficaces avec tokenisation contextuelle. ICML 2024
[Papier] [Code]
AD3 : L'action implicite est la clé des modèles mondiaux pour distinguer les divers distractions visuelles. ICML 2024
[Papier]
Hieros : Imagination hiérarchique sur les modèles mondiaux de séquences spatiales d'états structurés. ICML 2024
[Papier]
[ HRSSM ] Apprentissage de représentations robustes dynamiques latentes pour les modèles du monde. ICML 2024
[Papier] [Code]
HarmonyDream : Harmonisation des tâches à l'intérieur des modèles mondiaux. ICML 2024
[Papier] [Code]
[ REM ] Amélioration des modèles mondiaux basés sur des jetons avec la prévision d'observations parallèles. ICML 2024
[Papier] [Code]
Les modèles Transformer World donnent-ils de meilleurs gradients politiques ? ICML 2024
[Papier]
TD-MPC2 : Modèles mondiaux évolutifs et robustes pour un contrôle continu. ICLR 2024
[Papier] [Code de la torche]
DreamSmooth : Amélioration de l'apprentissage par renforcement basé sur un modèle via le lissage des récompenses. ICLR 2024
[Papier]
[ R2I ] Maîtriser les tâches de mémoire avec les modèles mondiaux. ICLR 2024
[Papier] [Code JAX]
MAMBA : une approche de modèle mondial efficace pour l'apprentissage par méta-renforcement. ICLR 2024
[Papier] [Code]
Apprentissage interactif multitâche de la flotte de robots avec des modèles du monde visuel. CoRL 2024
[Papier] [Code]
Vers des modèles du monde physiquement interprétables : des représentations significatives faiblement supervisées pour la prédiction visuelle de trajectoire. arXiv 2024.12
[Papier]
Rêver à manipuler : des modèles de monde compositionnels permettant un apprentissage par imitation de robot avec imagination. arXiv 2024.12
[Papier] [Projet]
Les transformateurs utilisent des modèles du monde causal dans les tâches de résolution de labyrinthes. arXiv 2024.12
[Papier]
Owl-1 : modèle Omni World pour une génération de vidéos longues et cohérentes. arXiv 2024.12
[Papier] [Code]
StoryWeaver : un modèle mondial unifié pour la personnalisation des personnages d'histoire améliorée par les connaissances. arXiv 2024.12
[Papier] [Code]
SimuDICE : Optimisation des politiques hors ligne grâce aux mises à jour du modèle mondial et à l'estimation DICE. BNAIC 2024
[Papier]
Exploration limitée avec incertitude du modèle mondial dans un algorithme d'apprentissage par renforcement acteur-critique doux. arXiv 2024.12
[Papier]
Genie 2 : Un modèle mondial de fondation à grande échelle. 2024.12
Google DeepMind
[Blog]
[ NWM ] Modèles du monde de navigation. arXiv 2024.12
Yann LeCun
[Papier] [Projet]
The Matrix : Génération mondiale à horizon infini avec contrôle mobile en temps réel. arXiv 2024.12
[Papier] [Projet]
Invite de mouvement : contrôle de la génération vidéo avec des trajectoires de mouvement. arXiv 2024.12
[Papier] [Projet]
Explorateur du monde génératif. arXiv 2024.11
[Papier] [Projet]
[ WebDreamer ] Votre LLM est-il secrètement un modèle mondial d'Internet ? Planification basée sur un modèle pour les agents Web. arXiv 2024.11
[Papier] [Code]
WHALE : Vers des modèles mondiaux généralisables et évolutifs pour la prise de décision incarnée. arXiv 2024.11
[Papier]
DINO-WM : les modèles mondiaux sur des fonctionnalités visuelles pré-entraînées permettent une planification sans tir. arXiv 2024.11
Yann LeCun
[Papier]
Lois de mise à l'échelle pour les agents de pré-formation et les modèles mondiaux. arXiv 2024.11
[Papier]
[ Phyworld ] Dans quelle mesure la génération vidéo se situe-t-elle par rapport au modèle mondial : une perspective de droit physique. arXiv 2024.11
[Papier] [Projet]
IGOR : Les représentations Image-GOal sont les unités de contrôle atomique pour les modèles de base dans l'IA incorporée. arXiv 2024.10
[Papier] [Projet]
EVA : un modèle mondial incarné pour l'anticipation vidéo future. arXiv 2024.10
[Papier]
VisualPredicator : Apprentissage de modèles du monde abstraits avec des prédicats neuro-symboliques pour la planification de robots. arXiv 2024.10
[Papier]
[ LLMCWM ] Les agents linguistiques rencontrent la causalité - Rapprocher les LLM et les modèles du monde causal. arXiv 2024.10
[Papier] [Code]
Modèles mondiaux sans récompense pour l'apprentissage par imitation en ligne. arXiv 2024.10
[Papier]
Agents Web avec des modèles mondiaux : apprendre et exploiter la dynamique de l'environnement dans la navigation Web. arXiv 2024.10
[Papier]
[ GLIMO ] Mise à la terre de grands modèles de langage dans un environnement incorporé avec des modèles mondiaux imparfaits. arXiv 2024.10
[Papier]
AVID : Adaptation des modèles de diffusion vidéo aux modèles mondiaux. arXiv 2024.10
[Papier] [Code]
[ WMP ] Perception basée sur un modèle mondial pour la locomotion visuelle des pattes. arXiv 2024.9
[Papier] [Projet]
[ OSWM ] Modèles du monde uniques utilisant un transformateur formé sur un avant synthétique. arXiv 2024.9
[Papier]
R-AIF : Résolution de tâches robotiques à récompense clairsemée à partir de pixels avec inférence active et modèles mondiaux. arXiv 2024.9
[Papier]
Représentation des informations de position dans les modèles du monde génératifs pour la manipulation d'objets. arXiv 2024.9
[Papier]
Transformer de grands modèles de langage en modèles mondiaux avec des connaissances sur les conditions et les effets. arXiv 2024.9
[Papier]
DexSim2Real$^2$ : Création d'un modèle mondial explicite pour une manipulation adroite d'objets articulés précis. arXiv 2024.9
[Papier]
Exploration efficace et apprentissage discriminant du modèle mondial avec une abstraction centrée sur l'objet. arXiv 2024.8
[Papier]
[ MoReFree ] Les modèles mondiaux augmentent l'autonomie dans l'apprentissage par renforcement. arXiv 2024.8
[Papier] [Projet]
UrbanWorld : Un modèle de monde urbain pour la génération de villes en 3D. arXiv 2024.7
[Papier]
PWM : Apprentissage politique avec de grands modèles mondiaux. arXiv 2024.7
[Papier] [Code]
Prédire ou agir : un compromis entre la modélisation du monde et la modélisation des agents. arXiv 2024.7
[Papier]
[ GenRL ] Modèles mondiaux de fondation multimodaux pour les agents incarnés généralistes. arXiv 2024.6
[Papier] [Code]
[ DLLM ] Modèles mondiaux avec des indices de grands modèles linguistiques pour atteindre les objectifs. arXiv 2024.6
[Papier]
Carte cognitive pour les modèles linguistiques : planification optimale via la représentation verbale du modèle mondial. arXiv 2024.6
[Papier]
CityBench : Évaluation des capacités d'un grand modèle linguistique en tant que modèle mondial. arXiv 2024.6
[Papier] [Code]
CoDreamer : Modèles mondiaux décentralisés basés sur la communication. arXiv 2024.6
[Papier]
[ EBWM ] Modèles mondiaux basés sur l'énergie d'inspiration cognitive. arXiv 2024.6
[Papier]
Évaluation du modèle mondial implicite dans un modèle génératif. arXiv 2024.6
[Papier] [Code]
Transformateurs et codage de slot pour une modélisation efficace du monde physique. arXiv 2024.5
[Papier] [Code]
[ Marionnettiste ] Modèles du monde hiérarchiques en tant que contrôleurs humanoïdes visuels du corps entier. arXiv 2024.5
Yann LeCun
[Papier] [Code]
Modèle BWArea : modèle du monde d'apprentissage, dynamique inverse et politique de génération de langage contrôlable. arXiv 2024.5
[Papier]
Pandora : Vers un modèle mondial général avec des actions en langage naturel et des états vidéo. [Papier] [Code]
[ WKM ] Planification des agents avec le modèle de connaissances mondial. arXiv 2024.5
[Papier] [Code]
Newton ™ – un modèle de base unique en son genre pour comprendre le monde physique. Archetype AI
[Blog]
Compete and Compose : apprentissage de mécanismes indépendants pour les modèles de monde modulaires. arXiv 2024.4
[Papier]
MagicTime : Modèles de génération de vidéo time-lapse comme simulateurs métamorphiques. arXiv 2024.4
[Papier] [Code]
Rêver de plusieurs mondes : l'apprentissage de modèles de monde contextuels facilite la généralisation sans tir. arXiv 2024.3
[Papier] [Code]
ManiGaussian : Splatting gaussien dynamique pour la manipulation robotique multitâche. arXiv 2024.3
[Papier] [Code]
V-JEPA : Architecture prédictive d'intégration de joints vidéo. Meta AI
Yann LeCun
[Blog] [Papier] [Code]
[ IWM ] Apprentissage et exploitation des modèles mondiaux dans l'apprentissage de la représentation visuelle. Meta AI
[Papier]
Genie : Environnements Interactifs Génératifs. DeepMind
[Papier] [Blog]
[ Sora ] Modèles de génération vidéo comme simulateurs du monde. OpenAI
[Rapport technique]
[ LWM ] Modèle mondial sur une vidéo et un langage d'un million de longueurs avec RingAttention. arXiv 2024.2
[Papier] [Code]
Planification avec un ensemble de modèles mondiaux. OpenReview
[Papier]
WorldDreamer : Vers des modèles mondiaux généraux pour la génération vidéo via la prédiction des jetons masqués. arXiv 2024.1
[Papier] [Code]
ICLR 2023 Oral
[Papier] [Code de la torche]NIPS 2023
[Papier] [Code de la torche]ICLR 2023
[Papier] [Code de la torche]arXiv 2023.8
[Papier] [Code JAX]arXiv 2023.1
[Papier] [Code JAX] [Code torche]ICML 2022
[Papier][Code de la torche]ICML 2022
[Papier] [Code TF]CoRL 2022
[Papier] [Code TF]NIPS 2022
[Papier] [Code TF]NIPS 2022 Spotlight
[Papier] [Code de la torche]arXiv 2022.3
[Papier]ICLR 2021
[Papier] [Code TF] [Code Torche]ICRA 2021
[Papier]ICLR 2020
[Papier] [Code TF] [Code Torche]ICML 2020
[Papier] [Code TF] [Code torche]NIPS 2018 Oral
[Papier]