收集一些世界模型(自动驾驶)论文。
如果您发现一些被忽略的论文,请随时创建拉取请求、开放问题或给我/ Qi Wang发送电子邮件。欢迎以任何形式做出贡献以使此列表更加全面。
如果您发现此存储库有用,请考虑给我们一颗星?。
请随意与其他人分享此列表! ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
轨道 #4:预测世界模型。
世界模型作为现实的抽象时空表示,可以根据当前状态预测未来状态。世界模型的学习过程有可能将预训练的基础模型提升到一个新的水平。给定仅视觉输入,神经网络在未来输出点云,以证明其对世界的预测能力。
CVPR 2023 Workshop on Autonomous Driving
挑战 3:ARGOVERSE 挑战,使用 Argoverse 2 传感器数据集进行 3D 占用预测。预测未来 3 秒世界的时空占用情况。
Yann LeCun
:通往自主机器智能的道路 [论文] [视频]CVPR'23 WAD
主题演讲 - Ashok Elluswamy,特斯拉 [视频]Wayve
推出 GAIA-1:尖端的自主生成人工智能模型 [博客]世界模型是预测接下来可能发生的事情的能力的基础,这对于自动驾驶至关重要。它们可以充当学习模拟器,或者用于基于模型的强化学习 (RL) 或规划的心理“假设”思维实验。通过将世界模型纳入我们的驾驶模型中,我们可以使它们更好地理解人类决策,并最终推广到更真实的情况。
WACVW 2024
[论文] [代码]ISSREW
[纸arXiv 2024.11
[论文]arXiv 2024.11
[论文]arXiv 2024.7
[论文] [代码]arXiv 2024.5
[论文] [代码]2024.3, arxiv
[论文]TITS
[纸]NeurIPS 2024
[论文] [代码]NeurIPS 2024
[论文] [项目]ECCV 2024
[论文]ECCV 2024
[论文] [代码]ECCV 2024
[论文] [代码]ECCV 2024
[论文] [代码]ECCV 2024
[论文] [代码]ECCV 2024
[论文]ECCV 2024
[论文] [代码]ECCV 2024
[代码]ECCV 2024
[论文] [代码]ECCV 2024
[论文] [代码]ICML 2024
[论文]CVPR 2024
[论文] [代码]CVPR 2024
[论文] [数据]CVPR 2024
[论文] [代码]CVPR 2024
[论文] [代码]CVPR 2024
[论文]CVPR 2024
[论文] [代码]CVPR 2024
[论文] [代码]ICLR 2024
[论文] [代码]ICLR 2024
[论文]ICLR 2024
[论文] [代码]arXiv 2024.12
[论文] [代码]arXiv 2024.12
[论文] [项目]arXiv 2024.12
[论文]arXiv 2024.12
[论文] [项目]arXiv 2024.12
[论文] [代码]arXiv 2024.12
[论文] [代码]arXiv 2024.12
[论文] [代码]arXiv 2024.12
[论文]arXiv 2024.12
[论文] [项目页面]arXiv 2024.11
[论文] [代码]arXiv 2024.11
[论文]arXiv 2024.11
[论文] [项目页面]arXiv 2024.10
[论文] [项目页面]arXiv 2024.10
[论文] [项目页面]arXiv 2024.10
[论文] [项目页面]arXiv 2024.9
[论文] [代码]arXiv 2024.9
[论文]arXiv 2024.9
[论文] [代码]arXiv 2024.9
[论文]arXiv 2024.9
[论文]arXiv 2024.8
[论文]arXiv 2024.8
[论文]arXiv 2024.7
[论文] [代码]arXiv 2024.7
[论文]arXiv 2024.6
[论文]arXiv 2024.6
[论文] [代码]arXiv 2024.6
[论文] [代码]arXiv 2024.6
[论文] [代码]arXiv 2024.6
[论文] [代码]arXiv 2024.5
[论文] [代码]arXiv 2024.5
[论文] [代码]arXiv 2024.5
[论文] [代码]arXiv 2024.5
[论文] [代码]arXiv 2024.4
[论文] [代码]arXiv 2024.3
[论文] [项目]arXiv 2024.3
[论文] [代码]ICRA 2023
[论文] [代码]arXiv 2023.12
[论文] [代码]arXiv 2023.11
[论文]arXiv 2023.11
[论文]arXiv 2023.9
[论文]arXiv 2023.9
[论文]arXiv 2023.8
[论文] [代码]NeurIPS 2022
[论文] [代码]NeurIPS 2022 Spotlight
[论文] [代码]ICRA 2022
[论文]IROS 2022
[论文]NeurIPS 2022 workshop
[论文] NVIDIA
[论文] [代码][ SMAC ] 通过生成世界模型解决多智能体决策问题。 NeurIPS 2024
[论文]
[ CoWorld ] 将离线强化学习在线化:离线视觉强化学习的协作世界模型。 NeurIPS 2024
[论文] [网站] [Torch 代码]
[ Diamond ] 世界建模的扩散:Atari 中的视觉细节很重要。 NeurIPS 2024
[论文] [代码]
PIVOT-R :用于机器人操作的原始驱动的路径点感知世界模型。 NeurIPS 2024
[论文]
[模拟联合国]学习无约束目标导航的世界模型。 NeurIPS 2024
[论文] [代码]
VidMan :利用视频扩散模型的隐式动力学进行有效的机器人操作。 NeurIPS 24
[论文]
自适应世界模型:非平稳性下通过潜在想象力学习行为。 NeurIPSW 2024
[论文]
来自凡人代理的隐式世界模型的出现。 NeurIPSW 2024
[论文]
GPT 模型中的因果世界表示。 NeurIPSW 2024
[论文]
PreLAR :具有可学习动作表示的世界模型预训练。 ECCV 2024
[论文] [代码]
[ CWM ] 通过反事实世界建模理解物理动力学。 ECCV 2024
[论文] [代码]
ManiGaussian :用于多任务机器人操作的动态高斯泼溅。 ECCV 2024
[论文] [代码]
[ DWL ] 推进人形运动:通过去噪世界模型学习掌握具有挑战性的地形。 RSS 2024 (Best Paper Award Finalist)
[论文]
[ LLM-Sim ] 语言模型可以作为基于文本的世界模拟器吗? ACL
[论文] [代码]
RoboDreamer :学习机器人想象力的组合世界模型。 ICML 2024
[论文] [代码]
[ Δ-IRIS ] 具有上下文感知标记化的高效世界模型。 ICML 2024
[论文] [代码]
AD3 :内隐行动是世界模型区分各种视觉干扰因素的关键。 ICML 2024
[论文]
Hieros :结构化状态空间序列世界模型的层次想象。 ICML 2024
[论文]
[ HRSSM ] 学习世界模型的潜在动态鲁棒表示。 ICML 2024
[论文] [代码]
HarmonyDream :世界模型内的任务协调。 ICML 2024
[论文] [代码]
[ REM ] 通过并行观测预测改进基于代币的世界模型。 ICML 2024
[论文] [代码]
Transformer 世界模型能否提供更好的策略梯度? ICML 2024
[论文]
TD-MPC2 :用于连续控制的可扩展、稳健的世界模型。 ICLR 2024
[论文] [火炬代码]
DreamSmooth :通过奖励平滑改进基于模型的强化学习。 ICLR 2024
[论文]
[ R2I ] 使用世界模型掌握记忆任务。 ICLR 2024
[论文] [JAX 代码]
MAMBA :元强化学习的有效世界模型方法。 ICLR 2024
[论文] [代码]
使用视觉世界模型进行多任务交互式机器人舰队学习。 CoRL 2024
[论文] [代码]
走向物理上可解释的世界模型:用于视觉轨迹预测的有意义的弱监督表示。 arXiv 2024.12
[论文]
操纵梦想:组合世界模型赋予机器人模仿学习与想象力。 arXiv 2024.12
[论文] [项目]
变形金刚在解决迷宫任务中使用因果世界模型。 arXiv 2024.12
[论文]
Owl-1 :用于一致长视频生成的全方位世界模型。 arXiv 2024.12
[论文] [代码]
StoryWeaver :用于知识增强的故事角色定制的统一世界模型。 arXiv 2024.12
[论文] [代码]
SimuDICE :通过世界模型更新和 DICE 估计进行离线策略优化。 BNAIC 2024
[论文]
软演员批评家强化学习算法中世界模型不确定性的有界探索。 arXiv 2024.12
[论文]
Genie 2 :大型基础世界模型。 2024.12
Google DeepMind
[博客]
[ NWM ] 导航世界模型。 arXiv 2024.12
Yann LeCun
[论文] [项目]
黑客帝国:具有实时移动控制的无限地平线世界生成。 arXiv 2024.12
[论文] [项目]
运动提示:通过运动轨迹控制视频生成。 arXiv 2024.12
[论文] [项目]
生成世界探索者。 arXiv 2024.11
[论文] [项目]
[ WebDreamer ] 你的LLM是秘密的互联网世界模型吗?基于模型的 Web 代理规划。 arXiv 2024.11
[论文] [代码]
WHALE :迈向可推广和可扩展的具体决策世界模型。 arXiv 2024.11
[论文]
DINO-WM :基于预训练视觉特征的世界模型可实现零样本规划。 arXiv 2024.11
Yann LeCun
[论文]
预训练代理和世界模型的缩放定律。 arXiv 2024.11
[论文]
[ Phyworld ] 视频生成距世界模型还有多远:物理定律的角度。 arXiv 2024.11
[论文] [项目]
IGOR :图像目标表示是具体人工智能中基础模型的原子控制单元。 arXiv 2024.10
[论文] [项目]
EVA :未来视频预期的具体世界模型。 arXiv 2024.10
[论文]
VisualPredicator :使用神经符号谓词学习抽象世界模型以进行机器人规划。 arXiv 2024.10
[论文]
[ LLMCWM ] 语言代理满足因果关系——桥接法学硕士和因果世界模型。 arXiv 2024.10
[论文] [代码]
在线模仿学习的无奖励世界模型。 arXiv 2024.10
[论文]
具有世界模型的网络代理:学习和利用网络导航中的环境动态。 arXiv 2024.10
[论文]
[ GLIMO ] 在具有不完美世界模型的具体环境中建立大型语言模型。 arXiv 2024.10
[论文]
AVID :使视频扩散模型适应世界模型。 arXiv 2024.10
[论文] [代码]
[ WMP ] 基于世界模型的视觉腿部运动感知。 arXiv 2024.9
[论文] [项目]
[ OSWM ] 使用在合成先验上训练的 Transformer 的一次性世界模型。 arXiv 2024.9
[论文]
R-AIF :利用主动推理和世界模型解决像素稀疏奖励机器人任务。 arXiv 2024.9
[论文]
表示对象操作的生成世界模型中的位置信息。 arXiv 2024.9
[论文]
利用前提和效果知识将大型语言模型变成世界模型。 arXiv 2024.9
[论文]
DexSim2Real$^2$ :为精确铰接物体灵巧操作构建显式世界模型。 arXiv 2024.9
[论文]
以对象为中心的抽象的有效探索和判别世界模型学习。 arXiv 2024.8
[论文]
[ MoReFree ] 世界模型增加了强化学习的自主性。 arXiv 2024.8
[论文] [项目]
UrbanWorld :3D 城市生成的城市世界模型。 arXiv 2024.7
[论文]
PWM :利用大世界模型进行政策学习。 arXiv 2024.7
[论文] [代码]
预测与行动:世界建模与代理建模之间的权衡。 arXiv 2024.7
[论文]
[ GenRL ] 通才体现代理的多模式基础世界模型。 arXiv 2024.6
[论文] [代码]
[ DLLM ] 带有用于实现目标的大型语言模型提示的世界模型。 arXiv 2024.6
[论文]
语言模型的认知地图:通过口头表达世界模型进行优化规划。 arXiv 2024.6
[论文]
CityBench :评估大型语言模型作为世界模型的能力。 arXiv 2024.6
[论文] [代码]
CoDreamer :基于通信的去中心化世界模型。 arXiv 2024.6
[论文]
[ EBWM ] 认知启发的基于能量的世界模型。 arXiv 2024.6
[论文]
评估生成模型中隐含的世界模型。 arXiv 2024.6
[论文] [代码]
用于示例高效物理世界建模的变压器和插槽编码。 arXiv 2024.5
[论文] [代码]
[ Puppeteer ] 分层世界模型作为视觉全身人形控制器。 arXiv 2024.5
Yann LeCun
[论文] [代码]
BWArea 模型:学习世界模型、逆动力学和可控语言生成策略。 arXiv 2024.5
[论文]
潘多拉:走向具有自然语言动作和视频状态的通用世界模型。 [论文] [代码]
[ WKM ] 使用世界知识模型进行代理规划。 arXiv 2024.5
[论文] [代码]
Newton ™ – 用于理解物理世界的首个基础模型。 Archetype AI
[博客]
竞争与组合:学习模块化世界模型的独立机制。 arXiv 2024.4
[论文]
MagicTime :延时视频生成模型作为变形模拟器。 arXiv 2024.4
[论文] [代码]
梦想多个世界:学习情境世界模型有助于零样本泛化。 arXiv 2024.3
[论文] [代码]
ManiGaussian :用于多任务机器人操作的动态高斯泼溅。 arXiv 2024.3
[论文] [代码]
V-JEPA :视频联合嵌入预测架构。 Meta AI
Yann LeCun
[博客] [论文] [代码]
[ IWM ] 在视觉表示学习中学习和利用世界模型。 Meta AI
[论文]
Genie :生成交互环境。 DeepMind
[论文] [博客]
[ Sora ] 视频生成模型作为世界模拟器。 OpenAI
【技术报告】
[ LWM ] 使用 RingAttention 实现百万长度视频和语言的世界模型。 arXiv 2024.2
[论文] [代码]
与世界模型集合进行规划。 OpenReview
[论文]
WorldDreamer :通过预测屏蔽令牌实现视频生成的通用世界模型。 arXiv 2024.1
[论文] [代码]
ICLR 2023 Oral
[论文] [火炬代码]NIPS 2023
[论文] [火炬代码]ICLR 2023
[论文] [火炬代码]arXiv 2023.8
[论文] [JAX 代码]arXiv 2023.1
[论文] [JAX 代码] [Torch 代码]ICML 2022
[论文][火炬代码]ICML 2022
[论文] [TF 代码]CoRL 2022
[论文] [TF 代码]NIPS 2022
[论文] [TF 代码]NIPS 2022 Spotlight
[论文] [火炬代码]arXiv 2022.3
[论文]ICLR 2021
[论文] [TF 代码] [Torch 代码]ICRA 2021
[论文]ICLR 2020
[论文] [TF 代码] [Torch 代码]ICML 2020
[论文] [TF 代码] [Torch 代码]NIPS 2018 Oral
[论文]