Sammeln Sie einige Papiere zu Weltmodellen (für autonomes Fahren).
Wenn Sie ignorierte Papiere finden, können Sie gerne Pull-Requests erstellen , Probleme offenlegen oder mir/ Qi Wang eine E-Mail senden . Beiträge jeglicher Art, um diese Liste umfassender zu machen, sind willkommen.
Wenn Sie dieses Repository nützlich finden, geben Sie uns bitte einen Stern ?.
Teilen Sie diese Liste gerne mit anderen! ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
Track Nr. 4: Prädiktives Weltmodell.
Als abstrakte räumlich-zeitliche Darstellung der Realität kann das Weltmodell zukünftige Zustände auf der Grundlage des aktuellen Zustands vorhersagen. Der Lernprozess von Weltmodellen hat das Potenzial, ein vorab trainiertes Basismodell auf die nächste Ebene zu heben. Bei rein visuellen Eingaben gibt das neuronale Netzwerk Punktwolken in der Zukunft aus, um seine Vorhersagefähigkeit für die Welt zu beweisen.
CVPR 2023 Workshop on Autonomous Driving
HERAUSFORDERUNG 3: ARGOVERSE CHALLENGES, 3D-Belegungsprognose unter Verwendung des Argoverse 2-Sensordatensatzes. Sagen Sie die Raumzeitbelegung der Welt für die nächsten 3 Sekunden voraus.
Yann LeCun
: Ein Weg zur autonomen Maschinenintelligenz [Papier] [Video]CVPR'23 WAD
Keynote – Ashok Elluswamy, Tesla [Video]Wayve
stellt GAIA-1 vor: Ein hochmodernes generatives KI-Modell für Autonomie [Blog]Weltmodelle sind die Grundlage für die Fähigkeit, vorherzusagen, was als nächstes passieren könnte, was für das autonome Fahren von grundlegender Bedeutung ist. Sie können als gelernter Simulator oder als mentales „Was wäre wenn“-Gedankenexperiment für modellbasiertes Reinforcement Learning (RL) oder Planung fungieren. Indem wir Weltmodelle in unsere Fahrmodelle integrieren, können wir ihnen ermöglichen, menschliche Entscheidungen besser zu verstehen und sie letztendlich auf realere Situationen zu übertragen.
WACVW 2024
[Papier] [Code]ISSREW
[PapierarXiv 2024.11
[Papier]arXiv 2024.11
[Papier]arXiv 2024.7
[Papier] [Code]arXiv 2024.5
[Papier] [Code]2024.3, arxiv
[Papier]TITS
[Papier]NeurIPS 2024
[Papier] [Code]NeurIPS 2024
[Papier] [Projekt]ECCV 2024
[Papier]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier]ECCV 2024
[Papier] [Code]ECCV 2024
[Code]ECCV 2024
[Papier] [Code]ECCV 2024
[Papier] [Code]ICML 2024
[Papier]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier] [Daten]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier]CVPR 2024
[Papier] [Code]CVPR 2024
[Papier] [Code]ICLR 2024
[Papier] [Code]ICLR 2024
[Papier]ICLR 2024
[Papier] [Code]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier] [Projekt]arXiv 2024.12
[Papier]arXiv 2024.12
[Papier] [Projekt]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier] [Code]arXiv 2024.12
[Papier]arXiv 2024.12
[Papier] [Projektseite]arXiv 2024.11
[Papier] [Code]arXiv 2024.11
[Papier]arXiv 2024.11
[Papier] [Projektseite]arXiv 2024.10
[Papier] [Projektseite]arXiv 2024.10
[Papier] [Projektseite]arXiv 2024.10
[Papier] [Projektseite]arXiv 2024.9
[Papier] [Code]arXiv 2024.9
[Papier]arXiv 2024.9
[Papier] [Code]arXiv 2024.9
[Papier]arXiv 2024.9
[Papier]arXiv 2024.8
[Papier]arXiv 2024.8
[Papier]arXiv 2024.7
[Papier] [Code]arXiv 2024.7
[Papier]arXiv 2024.6
[Papier]arXiv 2024.6
[Papier] [Code]arXiv 2024.6
[Papier] [Code]arXiv 2024.6
[Papier] [Code]arXiv 2024.6
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.5
[Papier] [Code]arXiv 2024.4
[Papier] [Code]arXiv 2024.3
[Papier] [Projekt]arXiv 2024.3
[Papier] [Code]ICRA 2023
[Papier] [Code]arXiv 2023.12
[Papier] [Code]arXiv 2023.11
[Papier]arXiv 2023.11
[Papier]arXiv 2023.9
[Papier]arXiv 2023.9
[Papier]arXiv 2023.8
[Papier] [Code]NeurIPS 2022
[Papier] [Code]NeurIPS 2022 Spotlight
[Papier] [Code]ICRA 2022
[Papier]IROS 2022
[Vortrag]NeurIPS 2022 workshop
[Vortrag] NVIDIA
[Papier] [Code] [ SMAC ] Fundierte Antworten für Multi-Agenten-Entscheidungsprobleme durch generatives Weltmodell. NeurIPS 2024
[Papier]
[ CoWorld ] Offline-RL online machen: Kollaborative Weltmodelle für Offline-Lernen zur visuellen Verstärkung. NeurIPS 2024
[Papier] [Website] [Fackelcode]
[ Diamant ] Verbreitung für die Weltmodellierung: Visuelle Details sind bei Atari wichtig. NeurIPS 2024
[Papier] [Code]
PIVOT-R : Primitives wegpunktbewusstes Weltmodell für Robotermanipulation. NeurIPS 2024
[Papier]
[ MUN ]Lernen von Weltmodellen für eine uneingeschränkte Zielnavigation. NeurIPS 2024
[Papier] [Code]
VidMan : Nutzung der impliziten Dynamik des Videodiffusionsmodells für eine effektive Robotermanipulation. NeurIPS 24
[Papier]
Adaptive Weltmodelle : Lernverhalten durch latente Vorstellungskraft unter Nichtstationarität. NeurIPSW 2024
[Papier]
Entstehung impliziter Weltmodelle durch sterbliche Agenten. NeurIPSW 2024
[Papier]
Kausale Weltrepräsentation im GPT-Modell. NeurIPSW 2024
[Papier]
PreLAR : Weltmodell-Vorschulung mit lernbarer Handlungsdarstellung. ECCV 2024
[Papier] [Code]
[ CWM ] Physikalische Dynamik mit kontrafaktischer Weltmodellierung verstehen. ECCV 2024
[Papier] [Code]
ManiGaussian : Dynamisches Gaußsches Splatting für die Robotermanipulation mit mehreren Aufgaben. ECCV 2024
[Papier] [Code]
[ DWL ] Weiterentwicklung der humanoiden Fortbewegung: Bewältigung anspruchsvoller Gelände durch entrauschendes Weltmodelllernen. RSS 2024 (Best Paper Award Finalist)
[Papier]
[ LLM-Sim ] Können Sprachmodelle als textbasierte Weltsimulatoren dienen? ACL
[Papier] [Code]
RoboDreamer : Erlernen kompositorischer Weltmodelle für die Roboterphantasie. ICML 2024
[Papier] [Code]
[ Δ-IRIS ] Effiziente Weltmodelle mit kontextbewusster Tokenisierung. ICML 2024
[Papier] [Code]
AD3 : Implizites Handeln ist der Schlüssel für Weltmodelle zur Unterscheidung der verschiedenen visuellen Ablenker. ICML 2024
[Papier]
Hieros : Hierarchische Vorstellung von Weltmodellen mit strukturierter Zustandsraumsequenz. ICML 2024
[Papier]
[ HRSSM ] Lernen latenter dynamischer robuster Darstellungen für Weltmodelle. ICML 2024
[Papier] [Code]
HarmonyDream : Aufgabenharmonisierung innerhalb von Weltmodellen. ICML 2024
[Papier] [Code]
[ REM ] Verbesserung tokenbasierter Weltmodelle mit paralleler Beobachtungsvorhersage. ICML 2024
[Papier] [Code]
Bieten Transformer-World-Modelle bessere politische Gradienten? ICML 2024
[Papier]
TD-MPC2 : Skalierbare, robuste Weltmodelle für kontinuierliche Steuerung. ICLR 2024
[Papier] [Fackelcode]
DreamSmooth : Verbesserung des modellbasierten Verstärkungslernens durch Belohnungsglättung. ICLR 2024
[Papier]
[ R2I ] Gedächtnisaufgaben mit Weltmodellen meistern. ICLR 2024
[Papier] [JAX-Code]
MAMBA : ein effektiver Weltmodellansatz für Meta-Reinforcement-Lernen. ICLR 2024
[Papier] [Code]
Interaktives Multitasking-Roboterflottenlernen mit visuellen Weltmodellen. CoRL 2024
[Papier] [Code]
Auf dem Weg zu physikalisch interpretierbaren Weltmodellen : Aussagekräftige, schwach überwachte Darstellungen für die visuelle Flugbahnvorhersage. arXiv 2024.12
[Papier]
Traum zur Manipulation : Kompositorische Weltmodelle, die das Lernen der Roboterimitation mit Fantasie ermöglichen. arXiv 2024.12
[Papier] [Projekt]
Transformatoren verwenden kausale Weltmodelle bei der Lösung von Labyrinthaufgaben. arXiv 2024.12
[Papier]
Owl-1 : Omni-World-Modell für konsistente lange Videogenerierung. arXiv 2024.12
[Papier] [Code]
StoryWeaver : Ein einheitliches Weltmodell für die wissensbasierte Anpassung von Story-Charakteren. arXiv 2024.12
[Papier] [Code]
SimuDICE : Offline-Richtlinienoptimierung durch Weltmodellaktualisierungen und DICE-Schätzung. BNAIC 2024
[Papier]
Begrenzte Erforschung mit Weltmodellunsicherheit im Soft Actor-Critic Reinforcement Learning-Algorithmus. arXiv 2024.12
[Papier]
Genie 2 : Ein großformatiges Foundation-Weltmodell. 2024.12
Google DeepMind
[Blog]
[ NWM ] Navigationsweltmodelle. arXiv 2024.12
Yann LeCun
[Papier] [Projekt]
Die Matrix : Weltgenerierung mit unendlichem Horizont und Bewegungssteuerung in Echtzeit. arXiv 2024.12
[Papier] [Projekt]
Bewegungsaufforderung : Steuern der Videoerzeugung mit Bewegungstrajektorien. arXiv 2024.12
[Papier] [Projekt]
Generativer Weltforscher. arXiv 2024.11
[Papier] [Projekt]
[ WebDreamer ] Ist Ihr LLM insgeheim ein Weltmodell des Internets? Modellbasierte Planung für Webagenten. arXiv 2024.11
[Papier] [Code]
WHALE : Auf dem Weg zu verallgemeinerbaren und skalierbaren Weltmodellen für verkörperte Entscheidungsfindung. arXiv 2024.11
[Papier]
DINO-WM : Weltmodelle auf vorab trainierten visuellen Funktionen ermöglichen Zero-Shot-Planung. arXiv 2024.11
Yann LeCun
[Papier]
Skalierungsgesetze für Pre-Training-Agenten und Weltmodelle. arXiv 2024.11
[Papier]
[ Phyworld ] Wie weit ist die Videoerzeugung vom Weltmodell entfernt: Eine physikalische Gesetzesperspektive. arXiv 2024.11
[Papier] [Projekt]
IGOR : Image-GOal-Darstellungen sind die atomaren Kontrolleinheiten für Grundmodelle in der verkörperten KI. arXiv 2024.10
[Papier] [Projekt]
EVA : Ein verkörpertes Weltmodell für zukünftige Videovorfreude. arXiv 2024.10
[Papier]
VisualPredicator : Lernen abstrakter Weltmodelle mit neurosymbolischen Prädikaten für die Roboterplanung. arXiv 2024.10
[Papier]
[ LLMCWM ] Sprachagenten treffen auf Kausalität – eine Brücke zwischen LLMs und kausalen Weltmodellen. arXiv 2024.10
[Papier] [Code]
Belohnungsfreie Weltmodelle für Online-Imitationslernen. arXiv 2024.10
[Papier]
Webagenten mit Weltmodellen : Umgebungsdynamik in der Webnavigation lernen und nutzen. arXiv 2024.10
[Papier]
[ GLIMO ] Verankerung großer Sprachmodelle in einer verkörperten Umgebung mit unvollkommenen Weltmodellen. arXiv 2024.10
[Papier]
AVID : Anpassung von Videoverbreitungsmodellen an Weltmodelle. arXiv 2024.10
[Papier] [Code]
[ WMP ] Weltmodellbasierte Wahrnehmung für visuelle Beinbewegung. arXiv 2024.9
[Papier] [Projekt]
[ OSWM ] One-Shot-Weltmodelle unter Verwendung eines auf einem synthetischen Prior trainierten Transformators. arXiv 2024.9
[Papier]
R-AIF : Lösen von Roboteraufgaben mit geringer Belohnung aus Pixeln mit aktiver Inferenz und Weltmodellen. arXiv 2024.9
[Papier]
Darstellung von Positionsinformationen in generativen Weltmodellen zur Objektmanipulation. arXiv 2024.9
[Papier]
Große Sprachmodelle mit Vorbedingungs- und Wirkungswissen in Weltmodelle umwandeln. arXiv 2024.9
[Papier]
DexSim2Real$^2$ : Aufbau eines expliziten Weltmodells für präzise artikulierte Objektmanipulation. arXiv 2024.9
[Papier]
Effiziente Erkundung und diskriminierendes Weltmodelllernen mit einer objektzentrierten Abstraktion. arXiv 2024.8
[Papier]
[ MoReFree ] Weltmodelle erhöhen die Autonomie beim Reinforcement Learning. arXiv 2024.8
[Papier] [Projekt]
UrbanWorld : Ein urbanes Weltmodell für die 3D-Stadtgenerierung. arXiv 2024.7
[Papier]
PWM : Policy Learning mit großen Weltmodellen. arXiv 2024.7
[Papier] [Code]
Vorhersagen vs. Handeln : Ein Kompromiss zwischen Weltmodellierung und Agentenmodellierung. arXiv 2024.7
[Papier]
[ GenRL ] Multimodale Grundweltmodelle für generalistische verkörperte Agenten. arXiv 2024.6
[Papier] [Code]
[ DLLM ] Weltmodelle mit Hinweisen auf große Sprachmodelle zur Zielerreichung. arXiv 2024.6
[Papier]
Kognitive Karte für Sprachmodelle: Optimale Planung durch verbale Darstellung des Weltmodells. arXiv 2024.6
[Papier]
CityBench : Bewertung der Fähigkeiten eines großen Sprachmodells als Weltmodell. arXiv 2024.6
[Papier] [Code]
CoDreamer : Kommunikationsbasierte dezentrale Weltmodelle. arXiv 2024.6
[Papier]
[ EBWM ] Kognitiv inspirierte energiebasierte Weltmodelle. arXiv 2024.6
[Papier]
Bewertung des in einem generativen Modell impliziten Weltmodells. arXiv 2024.6
[Papier] [Code]
Transformatoren und Slot-Kodierung für eine probeneffiziente Modellierung der physikalischen Welt. arXiv 2024.5
[Papier] [Code]
[ Puppenspieler ] Hierarchische Weltmodelle als visuelle Ganzkörper-Humanoid-Controller. arXiv 2024.5
Yann LeCun
[Papier] [Code]
BWArea-Modell : Lernweltmodell, inverse Dynamik und Richtlinie zur kontrollierbaren Sprachgenerierung. arXiv 2024.5
[Papier]
Pandora : Auf dem Weg zu einem allgemeinen Weltmodell mit Aktionen in natürlicher Sprache und Videozuständen. [Papier] [Code]
[ WKM ] Agentenplanung mit Weltwissensmodell. arXiv 2024.5
[Papier] [Code]
Newton ™ – ein einzigartiges Grundlagenmodell zum Verständnis der physischen Welt. Archetype AI
[Blog]
Konkurrieren und komponieren : Erlernen unabhängiger Mechanismen für modulare Weltmodelle. arXiv 2024.4
[Papier]
MagicTime : Zeitraffer-Videogenerierungsmodelle als metamorphe Simulatoren. arXiv 2024.4
[Papier] [Code]
Von vielen Welten träumen : Das Erlernen kontextbezogener Weltmodelle unterstützt die Zero-Shot-Generalisierung. arXiv 2024.3
[Papier] [Code]
ManiGaussian : Dynamisches Gaußsches Splatting für die Robotermanipulation mit mehreren Aufgaben. arXiv 2024.3
[Papier] [Code]
V-JEPA : Video Joint Embedding Predictive Architecture. Meta AI
Yann LeCun
[Blog] [Papier] [Code]
[ IWM ] Lernen und Nutzen von Weltmodellen beim Lernen visueller Repräsentation. Meta AI
[Papier]
Genie : Generative interaktive Umgebungen. DeepMind
[Papier] [Blog]
[ Sora ] Videogenerierungsmodelle als Weltsimulatoren. OpenAI
[Technischer Bericht]
[ LWM ] Weltmodell für Videos und Sprache in Millionenlänge mit RingAttention. arXiv 2024.2
[Papier] [Code]
Planen mit einem Ensemble von Weltmodellen. OpenReview
[Papier]
WorldDreamer : Auf dem Weg zu allgemeinen Weltmodellen für die Videogenerierung durch Vorhersage maskierter Token. arXiv 2024.1
[Papier] [Code]
ICLR 2023 Oral
[Vortrag] [Torch Code]NIPS 2023
[Papier] [Fackelcode]ICLR 2023
[Papier] [Fackelcode]arXiv 2023.8
[Papier] [JAX-Code]arXiv 2023.1
[Papier] [JAX-Code] [Torch-Code]ICML 2022
[Papier][Fackelcode]ICML 2022
[Papier] [TF-Code]CoRL 2022
[Papier] [TF-Code]NIPS 2022
[Papier] [TF-Code]NIPS 2022 Spotlight
[Papier] [Torch Code]arXiv 2022.3
[Papier]ICLR 2021
[Papier] [TF-Code] [Fackelcode]ICRA 2021
[Vortrag]ICLR 2020
[Papier] [TF-Code] [Fackelcode]ICML 2020
[Papier] [TF-Code] [Fackelcode]NIPS 2018 Oral
[Vortrag]