世界モデル(自動運転用)の論文をいくつか集めてください。
無視された論文を見つけた場合は、お気軽にプル リクエストを作成するか、問題をオープンするか、私 / Qi Wang に電子メールを送信してください。このリストをより包括的なものにするための、あらゆる形式での貢献を歓迎します。
このリポジトリが役立つと思われる場合は、スターを付けることを検討してください。
このリストを他の人と自由に共有してください。 ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
トラック #4: 予測世界モデル。
世界モデルは現実の抽象的な時空間表現として機能し、現在の状態に基づいて将来の状態を予測できます。ワールド モデルの学習プロセスには、事前トレーニングされた基礎モデルを次のレベルに引き上げる可能性があります。視覚のみの入力が与えられると、ニューラル ネットワークは世界の予測能力を証明するために将来の点群を出力します。
CVPR 2023 Workshop on Autonomous Driving
: ARGOVERSE チャレンジ、Argoverse 2 センサー データセットを使用した 3D 占有率予測。次の 3 秒間の世界の時空占有を予測します。
Yann LeCun
: 自律型マシン インテリジェンスへの道 [論文] [ビデオ]CVPR'23 WAD
基調講演 - Ashok Elluswamy、Tesla [ビデオ]Wayve
GAIA-1 の紹介: 自律性のための最先端の生成 AI モデル [ブログ]世界モデルは、次に何が起こるかを予測する能力の基礎であり、これは自動運転にとって基本的に重要です。これらは、学習済みシミュレーターとして機能したり、モデルベースの強化学習 (RL) や計画のための精神的な「もしも」の思考実験として機能したりできます。世界モデルを運転モデルに組み込むことで、人間の意思決定をよりよく理解できるようになり、最終的にはより現実世界の状況に一般化できるようになります。
WACVW 2024
[論文] [コード]ISSREW
[論文]arXiv 2024.11
[論文]arXiv 2024.11
[論文]arXiv 2024.7
[論文] [コード]arXiv 2024.5
[論文] [コード]2024.3, arxiv
[論文]TITS
[紙]NeurIPS 2024
[論文] [コード]NeurIPS 2024
[論文] [プロジェクト]ECCV 2024
[論文]ECCV 2024
[論文] [コード]ECCV 2024
[論文] [コード]ECCV 2024
[論文] [コード]ECCV 2024
[論文] [コード]ECCV 2024
[論文]ECCV 2024
[論文] [コード]ECCV 2024
[コード]ECCV 2024
[論文] [コード]ECCV 2024
[論文] [コード]ICML 2024
[論文]CVPR 2024
[論文] [コード]CVPR 2024
[論文] [データ]CVPR 2024
[論文] [コード]CVPR 2024
[論文] [コード]CVPR 2024
[論文]CVPR 2024
[論文] [コード]CVPR 2024
[論文] [コード]ICLR 2024
[論文] [コード]ICLR 2024
[論文]ICLR 2024
[論文] [コード]arXiv 2024.12
[論文] [コード]arXiv 2024.12
[論文] [プロジェクト]arXiv 2024.12
[論文]arXiv 2024.12
[論文] [プロジェクト]arXiv 2024.12
[論文] [コード]arXiv 2024.12
[論文] [コード]arXiv 2024.12
[論文] [コード]arXiv 2024.12
[論文]arXiv 2024.12
[論文] [プロジェクトページ]arXiv 2024.11
[論文] [コード]arXiv 2024.11
[論文]arXiv 2024.11
[論文] [プロジェクトページ]arXiv 2024.10
[論文] [プロジェクトページ]arXiv 2024.10
[論文] [プロジェクトページ]arXiv 2024.10
[論文] [プロジェクトページ]arXiv 2024.9
[論文] [コード]arXiv 2024.9
[論文]arXiv 2024.9
[論文] [コード]arXiv 2024.9
[論文]arXiv 2024.9
[論文]arXiv 2024.8
[論文]arXiv 2024.8
[論文]arXiv 2024.7
[論文] [コード]arXiv 2024.7
[論文]arXiv 2024.6
[論文]arXiv 2024.6
[論文] [コード]arXiv 2024.6
[論文] [コード]arXiv 2024.6
[論文] [コード]arXiv 2024.6
[論文] [コード]arXiv 2024.5
[論文] [コード]arXiv 2024.5
[論文] [コード]arXiv 2024.5
[論文] [コード]arXiv 2024.5
[論文] [コード]arXiv 2024.4
[論文] [コード]arXiv 2024.3
[論文] [プロジェクト]arXiv 2024.3
[論文] [コード]ICRA 2023
[論文] [コード]arXiv 2023.12
[論文] [コード]arXiv 2023.11
[論文]arXiv 2023.11
[論文]arXiv 2023.9
[論文]arXiv 2023.9
[論文]arXiv 2023.8
[論文] [コード]NeurIPS 2022
[論文] [コード]NeurIPS 2022 Spotlight
[論文] [コード]ICRA 2022
[論文]IROS 2022
[紙]NeurIPS 2022 workshop
[論文] NVIDIA
[論文] [コード][ SMAC ] 生成世界モデルによるマルチエージェント意思決定問題に対する根拠のある答え。 NeurIPS 2024
[論文]
[ CoWorld ] オフライン RL をオンラインにする: オフラインの視覚強化学習のための共同世界モデル。 NeurIPS 2024
[論文] [ウェブサイト] [トーチコード]
[ダイヤモンド] ワールド モデリングの普及: Atari では視覚的な詳細が重要です。 NeurIPS 2024
[論文] [コード]
PIVOT-R : ロボット操作のためのプリミティブ駆動のウェイポイント認識世界モデル。 NeurIPS 2024
[論文]
[ MUN ] 制約のない目標ナビゲーションのための学習世界モデル。 NeurIPS 2024
[論文] [コード]
VidMan : ビデオ拡散モデルから暗黙的なダイナミクスを活用して効果的なロボット操作を実現します。 NeurIPS 24
[論文]
適応世界モデル: 非定常性下での潜在的な想像力による学習行動。 NeurIPSW 2024
[論文]
定命のエージェントからの暗黙の世界モデルの出現。 NeurIPSW 2024
[論文]
GPT モデルにおける因果世界表現。 NeurIPSW 2024
[論文]
PreLAR : 学習可能なアクション表現を使用したワールド モデルの事前トレーニング。 ECCV 2024
[論文] [コード]
[ CWM ] 反事実世界モデリングによる物理力学の理解。 ECCV 2024
[論文] [コード]
ManiGaussian : マルチタスクのロボット操作のための動的ガウス スプラッティング。 ECCV 2024
[論文] [コード]
[ DWL ] ヒューマノイドの移動の進歩: ノイズ除去ワールド モデル学習による困難な地形の習得。 RSS 2024 (Best Paper Award Finalist)
[論文]
[ LLM-Sim ] 言語モデルはテキストベースの世界シミュレータとして機能しますか? ACL
[論文] [コード]
RoboDreamer : ロボットの想像力のための構成世界モデルを学習します。 ICML 2024
[論文] [コード]
[ Δ-IRIS ] コンテキストを意識したトークン化による効率的な世界モデル。 ICML 2024
[論文] [コード]
AD3 : 世界モデルが多様な視覚的妨害者を区別するには、暗黙のアクションが鍵となります。 ICML 2024
[論文]
Hieros : 構造化状態空間シーケンス世界モデルに関する階層的想像力。 ICML 2024
[論文]
[ HRSSM ] ワールド モデルの潜在動的ロバスト表現の学習。 ICML 2024
[論文] [コード]
HarmonyDream : ワールドモデル内のタスクの調和。 ICML 2024
[論文] [コード]
[ REM ] 並行観測予測によるトークンベースの世界モデルの改善。 ICML 2024
[論文] [コード]
Transformer World モデルはより良いポリシー勾配を提供しますか? ICML 2024
[論文]
TD-MPC2 : 継続的制御のためのスケーラブルで堅牢なワールド モデル。 ICLR 2024
[論文] [トーチコード]
DreamSmooth : 報酬平滑化によるモデルベースの強化学習の改善。 ICLR 2024
[論文]
[ R2I ] ワールド モデルを使用してメモリ タスクをマスターします。 ICLR 2024
[論文] [JAX コード]
MAMBA : メタ強化学習のための効果的な世界モデル アプローチ。 ICLR 2024
[論文] [コード]
ビジュアルワールドモデルを使用したマルチタスク対話型ロボットフリート学習。 CoRL 2024
[論文] [コード]
物理的に解釈可能な世界モデルに向けて: 視覚的な軌道予測のための意味のある弱教師あり表現。 arXiv 2024.12
[論文]
操作する夢: 想像力によるロボットの模倣学習を強化する構成世界モデル。 arXiv 2024.12
[論文] [プロジェクト]
トランスフォーマーは迷路解決タスクで因果世界モデルを使用します。 arXiv 2024.12
[論文]
Owl-1 : 一貫した長時間ビデオ生成のためのオムニワールド モデル。 arXiv 2024.12
[論文] [コード]
StoryWeaver : 知識を強化したストーリー キャラクターのカスタマイズのための統一世界モデル。 arXiv 2024.12
[論文] [コード]
SimuDICE : ワールド モデルの更新と DICE 推定によるオフライン ポリシーの最適化。 BNAIC 2024
[論文]
ソフトアクタークリティック強化学習アルゴリズムにおけるワールドモデルの不確実性を伴う境界探索。 arXiv 2024.12
[論文]
Genie 2 : 大規模な財団世界モデル。 2024.12
Google DeepMind
[ブログ]
[ NWM ] ナビゲーション ワールド モデル。 arXiv 2024.12
Yann LeCun
[論文] [プロジェクト]
マトリックス: リアルタイム移動制御による無限の地平線の世界生成。 arXiv 2024.12
[論文] [プロジェクト]
モーション プロンプト: モーション軌跡を使用してビデオ生成を制御します。 arXiv 2024.12
[論文] [プロジェクト]
ジェネレーティブワールドエクスプローラー。 arXiv 2024.11
[論文] [プロジェクト]
[ WebDreamer ] あなたの LLM は密かにインターネットの世界モデルですか? Web エージェントのモデルベースのプランニング。 arXiv 2024.11
[論文] [コード]
WHALE : 身体化された意思決定のための一般化可能かつスケーラブルな世界モデルに向けて。 arXiv 2024.11
[論文]
DINO-WM : 事前トレーニングされたビジュアル機能のワールド モデルにより、ゼロショット プランニングが可能になります。 arXiv 2024.11
Yann LeCun
[論文]
事前トレーニングエージェントとワールドモデルのスケーリング則。 arXiv 2024.11
[論文]
[ Phyworld ] ビデオ生成はワールド モデルからどの程度離れているのか: 物理法則の観点。 arXiv 2024.11
[論文] [プロジェクト]
IGOR : Image-GOal Representations は、身体化された AI の基礎モデルの原子制御ユニットです。 arXiv 2024.10
[論文] [プロジェクト]
EVA : 将来のビデオ予測のための具体化された世界モデル。 arXiv 2024.10
[論文]
VisualPredicator : ロボット計画のための神経記号述語を使用した抽象世界モデルの学習。 arXiv 2024.10
[論文]
[ LLMCWM ] 言語エージェントが因果関係を満たす -- LLM と因果世界モデルの橋渡し。 arXiv 2024.10
[論文] [コード]
オンライン模倣学習のための報酬のない世界モデル。 arXiv 2024.10
[論文]
ワールド モデルを備えた Web エージェント: Web ナビゲーションにおける環境ダイナミクスの学習と活用。 arXiv 2024.10
[論文]
[ GLIMO ] 不完全な世界モデルを持つ具体化された環境で大規模な言語モデルを基礎付ける。 arXiv 2024.10
[論文]
AVID : ビデオ拡散モデルを世界モデルに適応させる。 arXiv 2024.10
[論文] [コード]
[ WMP ] 視覚的な脚の移動に対するワールド モデルベースの認識。 arXiv 2024.9
[論文] [プロジェクト]
[ OSWM ] 合成事前学習でトレーニングされたトランスフォーマーを使用したワンショット ワールド モデル。 arXiv 2024.9
[論文]
R-AIF : アクティブ推論とワールド モデルを使用して、ピクセルから報酬が少ないロボット タスクを解決します。 arXiv 2024.9
[論文]
オブジェクト操作のための生成世界モデルにおける位置情報の表現。 arXiv 2024.9
[論文]
前提条件と効果の知識を使用して、大規模な言語モデルをワールド モデルに作成します。 arXiv 2024.9
[論文]
DexSim2Real$^2$ : 正確な多関節オブジェクトの器用な操作のための明示的な世界モデルの構築。 arXiv 2024.9
[論文]
オブジェクト中心の抽象化による効率的な探索と識別世界モデル学習。 arXiv 2024.8
[論文]
[ MoReFree ] ワールド モデルは強化学習の自律性を高めます。 arXiv 2024.8
[論文] [プロジェクト]
UrbanWorld : 3D 都市生成のためのアーバン ワールド モデル。 arXiv 2024.7
[論文]
PWM : 大規模な世界モデルを使用したポリシー学習。 arXiv 2024.7
[論文] [コード]
予測 vs. 行動: ワールド モデリングとエージェント モデリングのトレードオフ。 arXiv 2024.7
[論文]
[ GenRL ] ジェネラリストの身体化エージェントのためのマルチモーダル基盤世界モデル。 arXiv 2024.6
[論文] [コード]
[ DLLM ] 目標達成のための大規模言語モデルのヒントを含む世界モデル。 arXiv 2024.6
[論文]
言語モデルの認知マップ: 世界モデルを言語的に表現することによる最適な計画。 arXiv 2024.6
[論文]
CityBench : 世界モデルとしての大規模言語モデルの機能の評価。 arXiv 2024.6
[論文] [コード]
CoDreamer : 通信ベースの分散型世界モデル。 arXiv 2024.6
[論文]
[ EBWM ] 認知にインスピレーションを得たエネルギーベースの世界モデル。 arXiv 2024.6
[論文]
生成モデルに暗黙的に含まれる世界モデルの評価。 arXiv 2024.6
[論文] [コード]
効率的な物理世界モデリングのサンプルのためのトランスフォーマーとスロット エンコーディング。 arXiv 2024.5
[論文] [コード]
[ Puppeteer ] 視覚的な全身ヒューマノイド コントローラーとしての階層的世界モデル。 arXiv 2024.5
Yann LeCun
[論文] [コード]
BWArea モデル: 学習世界モデル、逆ダイナミクス、および制御可能な言語生成のためのポリシー。 arXiv 2024.5
[論文]
Pandora : 自然言語アクションとビデオ状態を備えた一般的な世界モデルに向けて。 [紙] [コード]
[ WKM ] ワールド ナレッジ モデルを使用したエージェント プランニング。 arXiv 2024.5
[論文] [コード]
Newton ™ – 物理世界を理解するための、この種では初めての基礎モデル。 Archetype AI
[ブログ]
競争して構成する: モジュラー世界モデルの独立したメカニズムを学習します。 arXiv 2024.4
[論文]
MagicTime : メタモーフィック シミュレーターとしてのタイムラプス ビデオ生成モデル。 arXiv 2024.4
[論文] [コード]
多くの世界を夢見る: コンテキスト世界モデルの学習は、ゼロショットの一般化に役立ちます。 arXiv 2024.3
[論文] [コード]
ManiGaussian : マルチタスクのロボット操作のための動的ガウス スプラッティング。 arXiv 2024.3
[論文] [コード]
V-JEPA : ビデオジョイント埋め込み予測アーキテクチャ。 Meta AI
Yann LeCun
[ブログ] [論文] [コード]
[ IWM ] 視覚表現学習における世界モデルの学習と活用。 Meta AI
[論文]
Genie : 生成的なインタラクティブ環境。 DeepMind
[論文] [ブログ]
[ Sora ] ワールド シミュレーターとしてのビデオ生成モデル。 OpenAI
【技術レポート】
[ LWM ] RingAttend による百万長ビデオと言語の世界モデル。 arXiv 2024.2
[論文] [コード]
世界のモデルのアンサンブルとの計画。 OpenReview
[論文]
WorldDreamer : マスクされたトークンの予測によるビデオ生成のための一般的な世界モデルに向けて。 arXiv 2024.1
[論文] [コード]
ICLR 2023 Oral
[論文] [トーチコード]NIPS 2023
[論文] [トーチコード]ICLR 2023
[論文] [トーチコード]arXiv 2023.8
[論文] [JAX コード]arXiv 2023.1
[論文] [JAX コード] [トーチ コード]ICML 2022
[論文][トーチコード]ICML 2022
[論文] [TF コード]CoRL 2022
[論文] [TF コード]NIPS 2022
[論文] [TFコード]NIPS 2022 Spotlight
[論文] [トーチコード]arXiv 2022.3
[論文]ICLR 2021
[論文] [TF コード] [トーチ コード]ICRA 2021
[論文]ICLR 2020
[論文] [TF コード] [トーチ コード]ICML 2020
[論文] [TF コード] [トーチ コード]NIPS 2018 Oral
[論文]