收集一些世界模型(自動駕駛)論文。
如果您發現一些被忽略的論文,請隨時建立拉取請求、開放問題或給我/ Qi Wang發送電子郵件。歡迎以任何形式做出貢獻以使此列表更加全面。
如果您發現此存儲庫有用,請考慮給我們一顆星?
請隨意與其他人分享此清單! ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
軌道 #4:預測世界模型。
世界模型作為現實的抽象時空表示,可以根據當前狀態預測未來狀態。世界模型的學習過程有可能將預先訓練的基礎模型提升到一個新的水平。給定僅視覺輸入,神經網路在未來輸出點雲,以證明其對世界的預測能力。
CVPR 2023 Workshop on Autonomous Driving
挑戰 3:ARGOVERSE 挑戰,使用 Argoverse 2 感測器資料集進行 3D 佔用預測。預測未來 3 秒世界的時空佔用情況。
Yann LeCun
:通往自主機器智慧的道路 [論文] [影片]CVPR'23 WAD
主題演講 - Ashok Elluswamy,特斯拉 [影片]Wayve
推出 GAIA-1:尖端的自主生成人工智慧模型 [部落格]世界模型是預測接下來可能發生的事情的能力的基礎,這對於自動駕駛至關重要。它們可以充當學習模擬器,或用於基於模型的強化學習 (RL) 或規劃的心理「假設」思維實驗。透過將世界模型納入我們的駕駛模型中,我們可以使它們更好地理解人類決策,並最終推廣到更真實的情況。
WACVW 2024
[論文] [代碼]ISSREW
[紙arXiv 2024.11
[論文]arXiv 2024.11
[論文]arXiv 2024.7
[論文] [代碼]arXiv 2024.5
[論文] [代碼]2024.3, arxiv
[論文]TITS
[紙]NeurIPS 2024
[論文] [代碼]NeurIPS 2024
[論文] [專案]ECCV 2024
[論文]ECCV 2024
[論文] [代碼]ECCV 2024
[論文] [代碼]ECCV 2024
[論文] [代碼]ECCV 2024
[論文] [代碼]ECCV 2024
[論文]ECCV 2024
[論文] [代碼]ECCV 2024
[代碼]ECCV 2024
[論文] [代碼]ECCV 2024
[論文] [代碼]ICML 2024
[論文]CVPR 2024
[論文] [代碼]CVPR 2024
[論文] [數據]CVPR 2024
[論文] [代碼]CVPR 2024
[論文] [代碼]CVPR 2024
[論文]CVPR 2024
[論文] [代碼]CVPR 2024
[論文] [代碼]ICLR 2024
[論文] [程式碼]ICLR 2024
[論文]ICLR 2024
[論文] [程式碼]arXiv 2024.12
[論文] [代碼]arXiv 2024.12
[論文] [專案]arXiv 2024.12
[論文]arXiv 2024.12
[論文] [專案]arXiv 2024.12
[論文] [代碼]arXiv 2024.12
[論文] [代碼]arXiv 2024.12
[論文] [代碼]arXiv 2024.12
[論文]arXiv 2024.12
[論文] [專案頁]arXiv 2024.11
[論文] [代碼]arXiv 2024.11
[論文]arXiv 2024.11
[論文] [專案頁]arXiv 2024.10
[論文] [專案頁]arXiv 2024.10
[論文] [專案頁]arXiv 2024.10
[論文] [專案頁]arXiv 2024.9
[論文] [代碼]arXiv 2024.9
[論文]arXiv 2024.9
[論文] [代碼]arXiv 2024.9
[論文]arXiv 2024.9
[論文]arXiv 2024.8
[論文]arXiv 2024.8
[論文]arXiv 2024.7
[論文] [代碼]arXiv 2024.7
[論文]arXiv 2024.6
[論文]arXiv 2024.6
[論文] [代碼]arXiv 2024.6
[論文] [代碼]arXiv 2024.6
[論文] [代碼]arXiv 2024.6
[論文] [代碼]arXiv 2024.5
[論文] [代碼]arXiv 2024.5
[論文] [代碼]arXiv 2024.5
[論文] [代碼]arXiv 2024.5
[論文] [代碼]arXiv 2024.4
[論文] [代碼]arXiv 2024.3
[論文] [專案]arXiv 2024.3
[論文] [代碼]ICRA 2023
[論文] [代碼]arXiv 2023.12
[論文] [代碼]arXiv 2023.11
[論文]arXiv 2023.11
[論文]arXiv 2023.9
[論文]arXiv 2023.9
[論文]arXiv 2023.8
[論文] [代碼]NeurIPS 2022
[論文] [代碼]NeurIPS 2022 Spotlight
[論文] [代碼]ICRA 2022
[論文]IROS 2022
[論文]NeurIPS 2022 workshop
[論文] NVIDIA
[論文] [程式碼][ SMAC ] 透過產生世界模型解決多智能體決策問題。 NeurIPS 2024
[論文]
[ CoWorld ] 將離線強化學習線上化:離線視覺強化學習的協作世界模型。 NeurIPS 2024
[論文] [網址] [Torch 程式碼]
[ Diamond ] 世界建模的擴散:Atari 中的視覺細節很重要。 NeurIPS 2024
[論文] [代碼]
PIVOT-R :用於機器人操作的原始驅動的路徑點感知世界模型。 NeurIPS 2024
[論文]
[模擬聯合國]學習無約束目標導航的世界模型。 NeurIPS 2024
[論文] [代碼]
VidMan :利用視訊擴散模型的隱式動力學進行有效的機器人操作。 NeurIPS 24
[論文]
自適應世界模型:非平穩性下透過潛在想像力學習行為。 NeurIPSW 2024
[論文]
來自凡人代理的隱式世界模型的出現。 NeurIPSW 2024
[論文]
GPT 模型中的因果世界表示。 NeurIPSW 2024
[論文]
PreLAR :具有可學習動作表示的世界模型預訓練。 ECCV 2024
[論文] [代碼]
[ CWM ] 透過反事實世界建模理解物理動力學。 ECCV 2024
[論文] [代碼]
ManiGaussian :用於多任務機器人操作的動態高斯潑濺。 ECCV 2024
[論文] [代碼]
[ DWL ] 推動人形運動:透過去噪世界模型學習掌握具有挑戰性的地形。 RSS 2024 (Best Paper Award Finalist)
[論文]
[ LLM-Sim ] 語言模型可以作為基於文字的世界模擬器嗎? ACL
[論文] [程式碼]
RoboDreamer :學習機器人想像力的組合世界模型。 ICML 2024
[論文] [代碼]
[ Δ-IRIS ] 具有情境感知標記化的高效世界模型。 ICML 2024
[論文] [代碼]
AD3 :內隱行動是世界模型區分各種視覺幹擾因素的關鍵。 ICML 2024
[論文]
Hieros :結構化狀態空間序列世界模型的層次想像。 ICML 2024
[論文]
[ HRSSM ] 學習世界模型的潛在動態穩健表示。 ICML 2024
[論文] [代碼]
HarmonyDream :世界模式內的任務協調。 ICML 2024
[論文] [代碼]
[ REM ] 透過平行觀測預測改進基於代幣的世界模型。 ICML 2024
[論文] [代碼]
Transformer 世界模型能否提供更好的策略梯度? ICML 2024
[論文]
TD-MPC2 :用於連續控制的可擴展、穩健的世界模型。 ICLR 2024
[論文] [火炬代碼]
DreamSmooth :透過獎勵平滑改進基於模型的強化學習。 ICLR 2024
[論文]
[ R2I ] 使用世界模型掌握記憶任務。 ICLR 2024
[論文] [JAX 程式碼]
MAMBA :元強化學習的有效世界模型方法。 ICLR 2024
[論文] [程式碼]
使用視覺世界模型進行多任務互動式機器人艦隊學習。 CoRL 2024
[論文] [程式碼]
走向物理上可解釋的世界模型:用於視覺軌跡預測的有意義的弱監督表示。 arXiv 2024.12
[論文]
操縱夢境:組合世界模型賦予機器人模仿學習與想像力。 arXiv 2024.12
[論文] [專案]
變形金剛在解決迷宮任務中使用因果世界模型。 arXiv 2024.12
[論文]
Owl-1 :用於一致長視頻生成的全方位世界模型。 arXiv 2024.12
[論文] [代碼]
StoryWeaver :用於知識增強的故事角色客製化的統一世界模型。 arXiv 2024.12
[論文] [代碼]
SimuDICE :透過世界模型更新和 DICE 估計進行離線策略最佳化。 BNAIC 2024
[論文]
軟演員批評者強化學習演算法中世界模型不確定性的有界探索。 arXiv 2024.12
[論文]
Genie 2 :大型基礎世界模型。 2024.12
Google DeepMind
[部落格]
[ NWM ] 導航世界模型。 arXiv 2024.12
Yann LeCun
[論文] [專案]
駭客任務:具有即時移動控制的無限地平線世界生成。 arXiv 2024.12
[論文] [專案]
運動提示:透過運動軌跡控制影片產生。 arXiv 2024.12
[論文] [專案]
生成世界探索者。 arXiv 2024.11
[論文] [專案]
[ WebDreamer ] 你的LLM是秘密的網路世界模型嗎?基於模型的 Web 代理程式規劃。 arXiv 2024.11
[論文] [代碼]
WHALE :邁向可推廣和可擴展的具體決策世界模式。 arXiv 2024.11
[論文]
DINO-WM :基於預訓練視覺特徵的世界模型可實現零樣本規劃。 arXiv 2024.11
Yann LeCun
[論文]
預訓練代理和世界模型的縮放定律。 arXiv 2024.11
[論文]
[ Phyworld ] 影片生成與世界模型還有多遠:物理定律的角度。 arXiv 2024.11
[論文] [專案]
IGOR :影像目標表示是具體人工智慧中基礎模型的原子控制單元。 arXiv 2024.10
[論文] [專案]
EVA :未來影片預期的具體世界模型。 arXiv 2024.10
[論文]
VisualPredicator :使用神經符號謂詞學習抽象世界模型以進行機器人規劃。 arXiv 2024.10
[論文]
[ LLMCWM ] 語言代理滿足因果關係-橋接法學碩士與因果世界模型。 arXiv 2024.10
[論文] [代碼]
線上模仿學習的無獎勵世界模型。 arXiv 2024.10
[論文]
具有世界模型的網路代理:學習並利用網路導航中的環境動態。 arXiv 2024.10
[論文]
[ GLIMO ] 在具有不完美世界模型的具體環境中建立大型語言模型。 arXiv 2024.10
[論文]
AVID :使視訊擴散模型適應世界模型。 arXiv 2024.10
[論文] [代碼]
[ WMP ] 基於世界模型的視覺腿部運動感知。 arXiv 2024.9
[論文] [項目]
[ OSWM ] 使用在合成先驗上訓練的 Transformer 的一次性世界模型。 arXiv 2024.9
[論文]
R-AIF :利用主動推理和世界模型解決像素稀疏獎勵機器人任務。 arXiv 2024.9
[論文]
表示物件操作的生成世界模型中的位置資訊。 arXiv 2024.9
[論文]
利用前提和效果知識將大型語言模型變成世界模型。 arXiv 2024.9
[論文]
DexSim2Real$^2$ :為精確鉸接物體靈巧操作建立顯式世界模型。 arXiv 2024.9
[論文]
以物件為中心的抽象的有效探索和判別世界模型學習。 arXiv 2024.8
[論文]
[ MoReFree ] 世界模型增加了強化學習的自主性。 arXiv 2024.8
[論文] [專案]
UrbanWorld :3D 城市生成的城市世界模型。 arXiv 2024.7
[論文]
PWM :利用大世界模型進行政策學習。 arXiv 2024.7
[論文] [代碼]
預測與行動:世界建模與代理建模之間的權衡。 arXiv 2024.7
[論文]
[ GenRL ] 通才體現代理人的多模式基礎世界模型。 arXiv 2024.6
[論文] [代碼]
[ DLLM ] 帶有用於實現目標的大型語言模型提示的世界模型。 arXiv 2024.6
[論文]
語言模型的認知地圖:透過口語表達世界模型進行最佳化規劃。 arXiv 2024.6
[論文]
CityBench :評估大型語言模型作為世界模型的能力。 arXiv 2024.6
[論文] [代碼]
CoDreamer :基於通訊的去中心化世界模型。 arXiv 2024.6
[論文]
[ EBWM ] 認知啟發的基於能量的世界模型。 arXiv 2024.6
[論文]
評估生成模型中隱含的世界模型。 arXiv 2024.6
[論文] [代碼]
用於範例高效物理世界建模的變壓器和插槽編碼。 arXiv 2024.5
[論文] [代碼]
[ Puppeteer ] 分層世界模型作為視覺全身人形控制器。 arXiv 2024.5
Yann LeCun
[論文] [代碼]
BWArea 模型:學習世界模型、逆動力學和可控語言生成策略。 arXiv 2024.5
[論文]
潘朵拉:走向具有自然語言動作和視訊狀態的通用世界模型。 [論文] [程式碼]
[ WKM ] 使用世界知識模型進行代理規劃。 arXiv 2024.5
[論文] [代碼]
Newton ™ – 用於理解物理世界的首個基礎模型。 Archetype AI
[部落格]
競爭與組合:學習模組化世界模型的獨立機制。 arXiv 2024.4
[論文]
MagicTime :延時視訊產生模型作為變形模擬器。 arXiv 2024.4
[論文] [代碼]
夢想多個世界:學習情境世界模型有助於零樣本泛化。 arXiv 2024.3
[論文] [代碼]
ManiGaussian :用於多任務機器人操作的動態高斯潑濺。 arXiv 2024.3
[論文] [代碼]
V-JEPA :視訊聯合嵌入預測架構。 Meta AI
Yann LeCun
[博客] [論文] [代碼]
[ IWM ] 在視覺表示學習中學習並利用世界模型。 Meta AI
[論文]
Genie :產生互動環境。 DeepMind
[論文] [博客]
[ Sora ] 視訊生成模型作為世界模擬器。 OpenAI
【技術報告】
[ LWM ] 使用 RingAttention 實現百萬長度影片和語言的世界模型。 arXiv 2024.2
[論文] [代碼]
與世界模型集合進行規劃。 OpenReview
[論文]
WorldDreamer :透過預測屏蔽令牌實現視訊生成的通用世界模型。 arXiv 2024.1
[論文] [代碼]
ICLR 2023 Oral
[論文] [火炬代碼]NIPS 2023
[論文] [火炬代碼]ICLR 2023
[論文] [火炬代碼]arXiv 2023.8
[論文] [JAX 碼]arXiv 2023.1
[論文] [JAX 碼] [Torch 代碼]ICML 2022
[論文][火炬代碼]ICML 2022
[論文] [TF 代碼]CoRL 2022
[論文] [TF 代碼]NIPS 2022
[論文] [TF 代碼]NIPS 2022 Spotlight
[論文] [火炬代碼]arXiv 2022.3
[論文]ICLR 2021
[論文] [TF 程式碼] [Torch 程式碼]ICRA 2021
[論文]ICLR 2020
[論文] [TF 程式碼] [Torch 程式碼]ICML 2020
[論文] [TF 代碼] [Torch 代碼]NIPS 2018 Oral
[論文]