Awesome World Model下載 - Awesome World Model原始碼下載

Awesome World Model

Ai源碼

1.0.0

下載

令人驚嘆的自動駕駛世界模型

收集一些世界模型（自動駕駛）論文。

如果您發現一些被忽略的論文，請隨時建立拉取請求、開放問題或給我/ Qi Wang發送電子郵件。歡迎以任何形式做出貢獻以使此列表更加全面。

如果您發現此存儲庫有用，請考慮給我們一顆星？

請隨意與其他人分享此清單！ ???

工作坊與挑戰

CVPR 2024 Workshop & Challenge | OpenDriveLab軌道 #4：預測世界模型。
世界模型作為現實的抽象時空表示，可以根據當前狀態預測未來狀態。世界模型的學習過程有可能將預先訓練的基礎模型提升到一個新的水平。給定僅視覺輸入，神經網路在未來輸出點雲，以證明其對世界的預測能力。
CVPR 2023 Workshop on Autonomous Driving挑戰 3：ARGOVERSE 挑戰，使用 Argoverse 2 感測器資料集進行 3D 佔用預測。預測未來 3 秒世界的時空佔用情況。

文件

世界模型原紙

使用佔用網格進行移動機器人感知和導航 [論文]

技術部落格或視頻

Yann LeCun ：通往自主機器智慧的道路 [論文] [影片]
CVPR'23 WAD主題演講 - Ashok Elluswamy，特斯拉 [影片]
Wayve推出 GAIA-1：尖端的自主生成人工智慧模型 [部落格]
世界模型是預測接下來可能發生的事情的能力的基礎，這對於自動駕駛至關重要。它們可以充當學習模擬器，或用於基於模型的強化學習 (RL) 或規劃的心理「假設」思維實驗。透過將世界模型納入我們的駕駛模型中，我們可以使它們更好地理解人類決策，並最終推廣到更真實的情況。

民調

自動駕駛多模態大語言模型調查。 WACVW 2024 [論文] [代碼]
世界模型：安全視角。 ISSREW [紙
理解世界還是預測未來？世界模型的綜合調查。 arXiv 2024.11 [論文]
探索自動駕駛中影片生成與世界模型之間的相互作用：一項調查。 arXiv 2024.11 [論文]
將網路空間與實體世界結合：對嵌入式人工智慧的全面調查。 arXiv 2024.7 [論文] [代碼]
Sora是世界模擬器嗎？對一般世界模型及其他模型的全面調查。 arXiv 2024.5 [論文] [代碼]
自動駕駛的世界模型：初步調查。 2024.3, arxiv [論文]

2024年

[ SEM2 ]透過語意屏蔽世界模式提高端到端城市自動駕駛的樣本效率與穩健性。 TITS [紙]
Vista ：具有高保真度和多功能可控性的通用駕駛世界模型。 NeurIPS 2024 [論文] [代碼]
DrivingDojo 資料集：推進互動式和知識豐富的駕駛世界模型。 NeurIPS 2024 [論文] [專案]
Think2Drive ：透過準現實自動駕駛潛在世界模型中的思考進行高效強化學習。 ECCV 2024 [論文]
[ MARL-CCE ] 產生世界模型下自動駕駛競爭行為建模。 ECCV 2024 [論文] [代碼]
DriveDreamer ：邁向現實世界驅動的自動駕駛世界模型。 ECCV 2024 [論文] [代碼]
GenAD ：生成式端對端自動駕駛。 ECCV 2024 [論文] [代碼]
OccWorld ：學習自動駕駛的 3D 佔用世界模型。 ECCV 2024 [論文] [代碼]
[ NeMo ] 自動駕駛的神經體積世界模型。 ECCV 2024 [論文]
CarFormer ：透過學習的以物件為中心的表示進行自動駕駛。 ECCV 2024 [論文] [代碼]
[ MARL-CCE ] 產生世界模型下自主駕駛競爭行為建模。 ECCV 2024 [代碼]
[ GUMP ] 使用可擴展的生成模型解決運動規劃任務。 ECCV 2024 [論文] [代碼]
DrivingDiffusion ：具有潛在擴散模型的佈局引導多視圖駕駛場景影片生成。 ECCV 2024 [論文] [代碼]
3D-VLA ：3D 視覺-語言-動作生成世界模型。 ICML 2024 [論文]
[ ViDAR ] 視覺點雲預測支援可擴展的自動駕駛。 CVPR 2024 [論文] [代碼]
[ GenAD ] 自動駕駛廣義預測模型。 CVPR 2024 [論文] [數據]
Cam4DOCC ：自動駕駛應用中僅使用攝影機的 4D 佔用預測基準。 CVPR 2024 [論文] [代碼]
[ Drive-WM ] 駛向未來：利用自動駕駛世界模型進行多視角視覺預測與規劃。 CVPR 2024 [論文] [代碼]
DriveWorld ：透過自動駕駛世界模型進行 4D 預訓練場景理解。 CVPR 2024 [論文]
萬能藥：自動駕駛的全景可控影片產生。 CVPR 2024 [論文] [代碼]
UnO ：用於感知和預測的無監督佔用場。 CVPR 2024 [論文] [代碼]
MagicDrive ：具有多種 3D 幾何控制的街景生成。 ICLR 2024 [論文] [程式碼]
Copilot4D ：透過離散擴散學習自動駕駛的無監督世界模型。 ICLR 2024 [論文]
SafeDreamer ：使用世界模型進行安全強化學習。 ICLR 2024 [論文] [程式碼]
DrivingWorld ：透過影片 GPT 建立自動駕駛世界模型。 arXiv 2024.12 [論文] [代碼]
DrivingGPT ：透過多模態自回歸變壓器統一駕駛世界建模和規劃。 arXiv 2024.12 [論文] [專案]
透過解耦動態流和圖像輔助訓練的高效佔用世界模型。 arXiv 2024.12 [論文]
GEM ：一種可推廣的自我視覺多模態世界模型，用於細粒度自我運動、物件動力學和場景合成控制。 arXiv 2024.12 [論文] [專案]
GaussianWorld ：用於流式 3D 佔用預測的高斯世界模型。 arXiv 2024.12 [論文] [代碼]
Doe-1 ：具有大世界模型的閉環自動駕駛。 arXiv 2024.12 [論文] [代碼]
[ DrivePhysica ] 物理內行人駕駛世界模型。 arXiv 2024.12 [論文] [代碼]
HoloDrive ：用於自動駕駛的整體 2D-3D 多模式街道場景產生。 arXiv 2024.12 [論文]
InfinityDrive ：打破駕駛世界模型的時間限制。 arXiv 2024.12 [論文] [專案頁]
ReconDreamer ：透過線上復原製作用於駕駛場景重建的世界模型。 arXiv 2024.11 [論文] [代碼]
使用語言模型產生分佈外場景。 arXiv 2024.11 [論文]
Imagine-2-Drive ：CARLA 中自動駕駛汽車的高保真世界建模。 arXiv 2024.11 [論文] [專案頁]
WorldSimBench ：將視訊生成模型作為世界模擬器。 arXiv 2024.10 [論文] [專案頁]
DriveDreamer4D ：世界模型是 4D 駕駛場景表示的有效資料機。 arXiv 2024.10 [論文] [專案頁]
DOME ：將擴散模型馴服為高保真可控佔用世界模型。 arXiv 2024.10 [論文] [專案頁]
[ SSR ] 端對端自動駕駛真的需要感知任務嗎？ arXiv 2024.9 [論文] [代碼]
使用潛在空間產生世界模型減輕自動駕駛汽車模仿學習中的協變量變化。 arXiv 2024.9 [論文]
[ LatentDriver ] 從自動駕駛中的潛在世界模型學習多個機率決策。 arXiv 2024.9 [論文] [代碼]
RenderWorld ：具有自監督 3D 標籤的世界模型。 arXiv 2024.9 [論文]
OccLLaMA ：自動駕駛的佔用-語言-動作生成世界模型。 arXiv 2024.9 [論文]
DriveGenVLM ：基於視覺語言模型的自動駕駛的真實視訊生成。 arXiv 2024.8 [論文]
[ Drive-OccWorld ] 在佔用世界中駕駛：透過自動駕駛世界模型進行以視覺為中心的 4D 佔用預測和規劃。 arXiv 2024.8 [論文]
BEVWorld ：透過統一 BEV 潛在空間實現自動駕駛的多模式世界模型。 arXiv 2024.7 [論文] [代碼]
[ TOKEN ] 將世界標記為物件級知識，以解決自動駕駛中的長尾事件。 arXiv 2024.7 [論文]
UMAD ：用於自動駕駛的無監督掩模級異常檢測。 arXiv 2024.6 [論文]
SimGen ：模擬器條件下的駕駛場景產生。 arXiv 2024.6 [論文] [代碼]
[ AdaptiveDriver ] 使用自適應世界模型進行自動駕駛規劃。 arXiv 2024.6 [論文] [代碼]
[法律]利用潛在世界模型增強端到端自動駕駛。 arXiv 2024.6 [論文] [代碼]
[德爾福]透過可控長影片產生釋放端對端自動駕駛的通用化。 arXiv 2024.6 [論文] [代碼]
OccSora ：4D 佔用生成模型作為自動駕駛的世界模擬器。 arXiv 2024.5 [論文] [代碼]
MagicDrive3D ：用於街道場景中任意視圖渲染的可控 3D 產生。 arXiv 2024.5 [論文] [代碼]
CarDreamer ：基於世界模型的自動駕駛開源學習平台。 arXiv 2024.5 [論文] [代碼]
[ DriveSim ] 探索多模式法學碩士作為世界駕駛模式。 arXiv 2024.5 [論文] [代碼]
LidarDM ：生成世界中的生成 LiDAR 模擬。 arXiv 2024.4 [論文] [代碼]
subjectDrive ：透過主題控制擴展自動駕駛中的生成資料。 arXiv 2024.3 [論文] [專案]
DriveDreamer-2 ：用於產生多樣化駕駛影片的法學碩士增強世界模型。 arXiv 2024.3 [論文] [代碼]

2023年

TrafficBots ：邁向自動駕駛模擬和運動預測的世界模型。 ICRA 2023 [論文] [代碼]
WoVoGen ：用於可控多攝影機駕駛場景產生的世界體積感知擴散。 arXiv 2023.12 [論文] [代碼]
[ CTT ] 分類流量轉換器：具有標記化潛伏的可解釋且多樣化的行為預測。 arXiv 2023.11 [論文]
MUVO ：具有幾何表示的自動駕駛多模態生成世界模型。 arXiv 2023.11 [論文]
GAIA-1 ：自動駕駛的生成世界模型。 arXiv 2023.9 [論文]
ADriver-I ：自動駕駛的通用世界模型。 arXiv 2023.9 [論文]
UniWorld ：透過世界模型進行自動駕駛預訓練。 arXiv 2023.8 [論文] [代碼]

2022年

[ MILE ] 基於模型的城市駕駛模仿學習。 NeurIPS 2022 [論文] [代碼]
Iso-Dream ：在世界模型中隔離和利用不可控的視覺動力學。 NeurIPS 2022 Spotlight [論文] [代碼]
Symphony ：學習現實且多樣化的自動駕駛模擬代理。 ICRA 2022 [論文]
用於自動駕駛規劃的基於分層模型的模仿學習。 IROS 2022 [論文]
[ SEM2 ]透過語意屏蔽世界模式提高端到端城市自動駕駛的樣本效率與穩健性。 NeurIPS 2022 workshop [論文]

其他世界模型紙

2025年

實體人工智慧的Cosmos World 基礎模式平台。 NVIDIA [論文] [程式碼]

2024年

[ SMAC ] 透過產生世界模型解決多智能體決策問題。 NeurIPS 2024 [論文]
[ CoWorld ] 將離線強化學習線上化：離線視覺強化學習的協作世界模型。 NeurIPS 2024 [論文] [網址] [Torch 程式碼]
[ Diamond ] 世界建模的擴散：Atari 中的視覺細節很重要。 NeurIPS 2024 [論文] [代碼]
PIVOT-R ：用於機器人操作的原始驅動的路徑點感知世界模型。 NeurIPS 2024 [論文]
[模擬聯合國]學習無約束目標導航的世界模型。 NeurIPS 2024 [論文] [代碼]
VidMan ：利用視訊擴散模型的隱式動力學進行有效的機器人操作。 NeurIPS 24 [論文]
自適應世界模型：非平穩性下透過潛在想像力學習行為。 NeurIPSW 2024 [論文]
來自凡人代理的隱式世界模型的出現。 NeurIPSW 2024 [論文]
GPT 模型中的因果世界表示。 NeurIPSW 2024 [論文]
PreLAR ：具有可學習動作表示的世界模型預訓練。 ECCV 2024 [論文] [代碼]
[ CWM ] 透過反事實世界建模理解物理動力學。 ECCV 2024 [論文] [代碼]
ManiGaussian ：用於多任務機器人操作的動態高斯潑濺。 ECCV 2024 [論文] [代碼]
[ DWL ] 推動人形運動：透過去噪世界模型學習掌握具有挑戰性的地形。 RSS 2024 (Best Paper Award Finalist) [論文]
[ LLM-Sim ] 語言模型可以作為基於文字的世界模擬器嗎？ ACL [論文] [程式碼]
RoboDreamer ：學習機器人想像力的組合世界模型。 ICML 2024 [論文] [代碼]
[ Δ-IRIS ] 具有情境感知標記化的高效世界模型。 ICML 2024 [論文] [代碼]
AD3 ：內隱行動是世界模型區分各種視覺幹擾因素的關鍵。 ICML 2024 [論文]
Hieros ：結構化狀態空間序列世界模型的層次想像。 ICML 2024 [論文]
[ HRSSM ] 學習世界模型的潛在動態穩健表示。 ICML 2024 [論文] [代碼]
HarmonyDream ：世界模式內的任務協調。 ICML 2024 [論文] [代碼]
[ REM ] 透過平行觀測預測改進基於代幣的世界模型。 ICML 2024 [論文] [代碼]
Transformer 世界模型能否提供更好的策略梯度？ ICML 2024 [論文]
TD-MPC2 ：用於連續控制的可擴展、穩健的世界模型。 ICLR 2024 [論文] [火炬代碼]
DreamSmooth ：透過獎勵平滑改進基於模型的強化學習。 ICLR 2024 [論文]
[ R2I ] 使用世界模型掌握記憶任務。 ICLR 2024 [論文] [JAX 程式碼]
MAMBA ：元強化學習的有效世界模型方法。 ICLR 2024 [論文] [程式碼]
使用視覺世界模型進行多任務互動式機器人艦隊學習。 CoRL 2024 [論文] [程式碼]
走向物理上可解釋的世界模型：用於視覺軌跡預測的有意義的弱監督表示。 arXiv 2024.12 [論文]
操縱夢境：組合世界模型賦予機器人模仿學習與想像力。 arXiv 2024.12 [論文] [專案]
變形金剛在解決迷宮任務中使用因果世界模型。 arXiv 2024.12 [論文]
Owl-1 ：用於一致長視頻生成的全方位世界模型。 arXiv 2024.12 [論文] [代碼]
StoryWeaver ：用於知識增強的故事角色客製化的統一世界模型。 arXiv 2024.12 [論文] [代碼]
SimuDICE ：透過世界模型更新和 DICE 估計進行離線策略最佳化。 BNAIC 2024 [論文]
軟演員批評者強化學習演算法中世界模型不確定性的有界探索。 arXiv 2024.12 [論文]
Genie 2 ：大型基礎世界模型。 2024.12 Google DeepMind [部落格]
[ NWM ] 導航世界模型。 arXiv 2024.12 Yann LeCun [論文] [專案]
駭客任務：具有即時移動控制的無限地平線世界生成。 arXiv 2024.12 [論文] [專案]
運動提示：透過運動軌跡控制影片產生。 arXiv 2024.12 [論文] [專案]
生成世界探索者。 arXiv 2024.11 [論文] [專案]
[ WebDreamer ] 你的LLM是秘密的網路世界模型嗎？基於模型的 Web 代理程式規劃。 arXiv 2024.11 [論文] [代碼]
WHALE ：邁向可推廣和可擴展的具體決策世界模式。 arXiv 2024.11 [論文]
DINO-WM ：基於預訓練視覺特徵的世界模型可實現零樣本規劃。 arXiv 2024.11 Yann LeCun [論文]
預訓練代理和世界模型的縮放定律。 arXiv 2024.11 [論文]
[ Phyworld ] 影片生成與世界模型還有多遠：物理定律的角度。 arXiv 2024.11 [論文] [專案]
IGOR ：影像目標表示是具體人工智慧中基礎模型的原子控制單元。 arXiv 2024.10 [論文] [專案]
EVA ：未來影片預期的具體世界模型。 arXiv 2024.10 [論文]
VisualPredicator ：使用神經符號謂詞學習抽象世界模型以進行機器人規劃。 arXiv 2024.10 [論文]
[ LLMCWM ] 語言代理滿足因果關係－橋接法學碩士與因果世界模型。 arXiv 2024.10 [論文] [代碼]
線上模仿學習的無獎勵世界模型。 arXiv 2024.10 [論文]
具有世界模型的網路代理：學習並利用網路導航中的環境動態。 arXiv 2024.10 [論文]
[ GLIMO ] 在具有不完美世界模型的具體環境中建立大型語言模型。 arXiv 2024.10 [論文]
AVID ：使視訊擴散模型適應世界模型。 arXiv 2024.10 [論文] [代碼]
[ WMP ] 基於世界模型的視覺腿部運動感知。 arXiv 2024.9 [論文] [項目]
[ OSWM ] 使用在合成先驗上訓練的 Transformer 的一次性世界模型。 arXiv 2024.9 [論文]
R-AIF ：利用主動推理和世界模型解決像素稀疏獎勵機器人任務。 arXiv 2024.9 [論文]
表示物件操作的生成世界模型中的位置資訊。 arXiv 2024.9 [論文]
利用前提和效果知識將大型語言模型變成世界模型。 arXiv 2024.9 [論文]
DexSim2Real$^2$ ：為精確鉸接物體靈巧操作建立顯式世界模型。 arXiv 2024.9 [論文]
以物件為中心的抽象的有效探索和判別世界模型學習。 arXiv 2024.8 [論文]
[ MoReFree ] 世界模型增加了強化學習的自主性。 arXiv 2024.8 [論文] [專案]
UrbanWorld ：3D 城市生成的城市世界模型。 arXiv 2024.7 [論文]
PWM ：利用大世界模型進行政策學習。 arXiv 2024.7 [論文] [代碼]
預測與行動：世界建模與代理建模之間的權衡。 arXiv 2024.7 [論文]
[ GenRL ] 通才體現代理人的多模式基礎世界模型。 arXiv 2024.6 [論文] [代碼]
[ DLLM ] 帶有用於實現目標的大型語言模型提示的世界模型。 arXiv 2024.6 [論文]
語言模型的認知地圖：透過口語表達世界模型進行最佳化規劃。 arXiv 2024.6 [論文]
CityBench ：評估大型語言模型作為世界模型的能力。 arXiv 2024.6 [論文] [代碼]
CoDreamer ：基於通訊的去中心化世界模型。 arXiv 2024.6 [論文]
[ EBWM ] 認知啟發的基於能量的世界模型。 arXiv 2024.6 [論文]
評估生成模型中隱含的世界模型。 arXiv 2024.6 [論文] [代碼]
用於範例高效物理世界建模的變壓器和插槽編碼。 arXiv 2024.5 [論文] [代碼]
[ Puppeteer ] 分層世界模型作為視覺全身人形控制器。 arXiv 2024.5 Yann LeCun [論文] [代碼]
BWArea 模型：學習世界模型、逆動力學和可控語言生成策略。 arXiv 2024.5 [論文]
潘朵拉：走向具有自然語言動作和視訊狀態的通用世界模型。 [論文] [程式碼]
[ WKM ] 使用世界知識模型進行代理規劃。 arXiv 2024.5 [論文] [代碼]
Newton ™ – 用於理解物理世界的首個基礎模型。 Archetype AI [部落格]
競爭與組合：學習模組化世界模型的獨立機制。 arXiv 2024.4 [論文]
MagicTime ：延時視訊產生模型作為變形模擬器。 arXiv 2024.4 [論文] [代碼]
夢想多個世界：學習情境世界模型有助於零樣本泛化。 arXiv 2024.3 [論文] [代碼]
ManiGaussian ：用於多任務機器人操作的動態高斯潑濺。 arXiv 2024.3 [論文] [代碼]
V-JEPA ：視訊聯合嵌入預測架構。 Meta AI Yann LeCun [博客] [論文] [代碼]
[ IWM ] 在視覺表示學習中學習並利用世界模型。 Meta AI [論文]
Genie ：產生互動環境。 DeepMind [論文] [博客]
[ Sora ] 視訊生成模型作為世界模擬器。 OpenAI 【技術報告】
[ LWM ] 使用 RingAttention 實現百萬長度影片和語言的世界模型。 arXiv 2024.2 [論文] [代碼]
與世界模型集合進行規劃。 OpenReview [論文]
WorldDreamer ：透過預測屏蔽令牌實現視訊生成的通用世界模型。 arXiv 2024.1 [論文] [代碼]