Colete alguns papéis de Modelos Mundiais (para Condução Autônoma).
Se você encontrar alguns artigos ignorados, sinta-se à vontade para criar pull requests , abrir problemas ou enviar um e-mail para mim / Qi Wang . Contribuições sob qualquer forma para tornar esta lista mais abrangente são bem-vindas.
Se você achar este repositório útil, considere nos dar uma estrela ?.
Sinta-se à vontade para compartilhar esta lista com outras pessoas! ???
CVPR 2024 Workshop & Challenge | OpenDriveLab
Trilha 4 CVPR 2024 Workshop & Challenge | OpenDriveLab
: Modelo de mundo preditivo.
Servindo como uma representação espaço-temporal abstrata da realidade, o modelo mundial pode prever estados futuros com base no estado atual. O processo de aprendizagem de modelos mundiais tem o potencial de elevar um modelo básico pré-treinado para o próximo nível. Dadas entradas apenas de visão, a rede neural gera nuvens de pontos no futuro para testemunhar sua capacidade preditiva do mundo.
CVPR 2023 Workshop on Autonomous Driving
DESAFIO 3: DESAFIOS ARGOVERSE, previsão de ocupação 3D usando o conjunto de dados do sensor Argoverse 2. Preveja a ocupação do espaço-tempo do mundo pelos próximos 3 segundos.
Yann LeCun
: Um caminho em direção à inteligência de máquina autônoma [artigo] [Vídeo]CVPR'23 WAD
- Ashok Elluswamy, Tesla [Vídeo]Wayve
apresentando GAIA-1: um modelo de IA generativo de ponta para autonomia [blog]Os modelos mundiais são a base para a capacidade de prever o que poderá acontecer a seguir, o que é de fundamental importância para a condução autónoma. Eles podem atuar como um simulador aprendido ou um experimento mental “e se” para aprendizagem por reforço (RL) ou planejamento baseado em modelo. Ao incorporar modelos mundiais nos nossos modelos de condução, podemos capacitá-los a compreender melhor as decisões humanas e, em última análise, generalizar para situações mais reais.
WACVW 2024
[Artigo] [Código]ISSREW
[ArtigoarXiv 2024.11
[artigo]arXiv 2024.11
[artigo]arXiv 2024.7
[Artigo] [Código]arXiv 2024.5
[Artigo] [Código]2024.3, arxiv
[Artigo]TITS
[Papel]NeurIPS 2024
[Artigo] [Código]NeurIPS 2024
[Artigo] [Projeto]ECCV 2024
[Artigo]ECCV 2024
[Artigo] [Código]ECCV 2024
[Artigo] [Código]ECCV 2024
[Artigo] [Código]ECCV 2024
[Artigo] [Código]ECCV 2024
[Artigo]ECCV 2024
[Artigo] [Código]ECCV 2024
[Código]ECCV 2024
[Artigo] [Código]ECCV 2024
[Artigo] [Código]ICML 2024
[artigo]CVPR 2024
[Artigo] [Código]CVPR 2024
[Artigo] [Dados]CVPR 2024
[Artigo] [Código]CVPR 2024
[Artigo] [Código]CVPR 2024
[artigo]CVPR 2024
[Artigo] [Código]CVPR 2024
[Artigo] [Código]ICLR 2024
[Artigo] [Código]ICLR 2024
[artigo]ICLR 2024
[Artigo] [Código]arXiv 2024.12
[Artigo] [Código]arXiv 2024.12
[Artigo] [Projeto]arXiv 2024.12
[artigo]arXiv 2024.12
[Artigo] [Projeto]arXiv 2024.12
[Artigo] [Código]arXiv 2024.12
[Artigo] [Código]arXiv 2024.12
[Artigo] [Código]arXiv 2024.12
[artigo]arXiv 2024.12
[artigo] [página do projeto]arXiv 2024.11
[Artigo] [Código]arXiv 2024.11
[artigo]arXiv 2024.11
[artigo] [página do projeto]arXiv 2024.10
[artigo] [página do projeto]arXiv 2024.10
[artigo] [página do projeto]arXiv 2024.10
[artigo] [página do projeto]arXiv 2024.9
[Artigo] [Código]arXiv 2024.9
[artigo]arXiv 2024.9
[Artigo] [Código]arXiv 2024.9
[artigo]arXiv 2024.9
[artigo]arXiv 2024.8
[artigo]arXiv 2024.8
[artigo]arXiv 2024.7
[Artigo] [Código]arXiv 2024.7
[artigo]arXiv 2024.6
[artigo]arXiv 2024.6
[Artigo] [Código]arXiv 2024.6
[Artigo] [Código]arXiv 2024.6
[Artigo] [Código]arXiv 2024.6
[Artigo] [Código]arXiv 2024.5
[Artigo] [Código]arXiv 2024.5
[Artigo] [Código]arXiv 2024.5
[Artigo] [Código]arXiv 2024.5
[Artigo] [Código]arXiv 2024.4
[Artigo] [Código]arXiv 2024.3
[Artigo] [Projeto]arXiv 2024.3
[Artigo] [Código]ICRA 2023
[Artigo] [Código]arXiv 2023.12
[Artigo] [Código]arXiv 2023.11
[artigo]arXiv 2023.11
[artigo]arXiv 2023.9
[artigo]arXiv 2023.9
[artigo]arXiv 2023.8
[Artigo] [Código]NeurIPS 2022
[Artigo] [Código]NeurIPS 2022 Spotlight
[Artigo] [Código]ICRA 2022
[artigo]IROS 2022
[Artigo]NeurIPS 2022 workshop
[artigo] NVIDIA
[Artigo] [Código] [ SMAC ] Respostas fundamentadas para problemas de tomada de decisão multiagentes por meio de modelo de mundo generativo. NeurIPS 2024
[artigo]
[ CoWorld ] Tornando RL offline online: modelos mundiais colaborativos para aprendizagem por reforço visual offline. NeurIPS 2024
[Artigo] [Site] [Código da tocha]
[ Diamante ] Difusão para modelagem mundial: detalhes visuais são importantes na Atari. NeurIPS 2024
[Artigo] [Código]
PIVOT-R : Modelo mundial com reconhecimento de waypoint orientado por primitivos para manipulação robótica. NeurIPS 2024
[artigo]
[ MUN ]Aprendendo modelos mundiais para navegação irrestrita de metas. NeurIPS 2024
[Artigo] [Código]
VidMan : Explorando Dinâmica Implícita do Modelo de Difusão de Vídeo para Manipulação Eficaz de Robôs. NeurIPS 24
[artigo]
Modelos de mundo adaptativos : comportamentos de aprendizagem por imaginação latente sob não estacionariedade. NeurIPSW 2024
[Artigo]
Emergência de Modelos de Mundo Implícitos de Agentes Mortais. NeurIPSW 2024
[artigo]
Representação do Mundo Causal no Modelo GPT. NeurIPSW 2024
[artigo]
PreLAR : Pré-treinamento de modelo mundial com representação de ação que pode ser aprendida. ECCV 2024
[Artigo] [Código]
[ CWM ] Compreendendo a dinâmica física com modelagem de mundo contrafactual. ECCV 2024
[Artigo] [Código]
ManiGaussian : Respingos Gaussianos Dinâmicos para Manipulação Robótica Multitarefa. ECCV 2024
[Artigo] [Código]
[ DWL ] Avançando na Locomoção Humanóide: Dominando Terrenos Desafiadores com Denoising World Model Learning. RSS 2024 (Best Paper Award Finalist)
[Artigo]
[ LLM-Sim ] Os modelos de linguagem podem servir como simuladores mundiais baseados em texto? ACL
[Papel] [Código]
RoboDreamer : Aprendendo modelos de mundo composicional para imaginação de robôs. ICML 2024
[Artigo] [Código]
[ Δ-IRIS ] Modelos mundiais eficientes com tokenização sensível ao contexto. ICML 2024
[Artigo] [Código]
AD3 : A ação implícita é a chave para os modelos mundiais distinguirem os diversos distratores visuais. ICML 2024
[artigo]
Hieros : Imaginação Hierárquica em Modelos Mundiais de Sequência Espacial de Estados Estruturados. ICML 2024
[artigo]
[ HRSSM ] Aprendendo Representações Robustas Dinâmicas Latentes para Modelos Mundiais. ICML 2024
[Artigo] [Código]
HarmonyDream : Harmonização de tarefas dentro dos modelos mundiais. ICML 2024
[Artigo] [Código]
[ REM ] Melhorando modelos mundiais baseados em tokens com previsão de observação paralela. ICML 2024
[Artigo] [Código]
Os modelos do Transformer World oferecem melhores gradientes políticos? ICML 2024
[artigo]
TD-MPC2 : Modelos mundiais robustos e escaláveis para controle contínuo. ICLR 2024
[Artigo] [Código da Tocha]
DreamSmooth : Melhorando o aprendizado por reforço baseado em modelo por meio de suavização de recompensa. ICLR 2024
[artigo]
[ R2I ] Dominando tarefas de memória com modelos mundiais. ICLR 2024
[Artigo] [Código JAX]
MAMBA : uma abordagem de modelo mundial eficaz para aprendizagem por meta-reforço. ICLR 2024
[Artigo] [Código]
Aprendizagem interativa de frota de robôs multitarefa com modelos de mundo visual. CoRL 2024
[Artigo] [Código]
Rumo a modelos de mundo fisicamente interpretáveis : representações significativas e fracamente supervisionadas para previsão de trajetória visual. arXiv 2024.12
[artigo]
Sonhe para manipular : modelos de mundo composicionais que capacitam o aprendizado de imitação de robôs com imaginação. arXiv 2024.12
[Artigo] [Projeto]
Transformadores usam modelos de mundo causal em tarefas de resolução de labirintos. arXiv 2024.12
[artigo]
Owl-1 : Modelo Omni World para geração consistente de vídeos longos. arXiv 2024.12
[Artigo] [Código]
StoryWeaver : um modelo mundial unificado para personalização de personagens de histórias com conhecimento aprimorado. arXiv 2024.12
[Artigo] [Código]
SimuDICE : Otimização de políticas off-line por meio de atualizações do modelo mundial e estimativa DICE. BNAIC 2024
[Artigo]
Exploração limitada com incerteza do modelo mundial no algoritmo de aprendizagem por reforço ator-crítico suave. arXiv 2024.12
[artigo]
Genie 2 : Um modelo mundial de base em grande escala. 2024.12
Google DeepMind
[Blog]
[ NWM ] Modelos mundiais de navegação. arXiv 2024.12
Yann LeCun
[Artigo] [Projeto]
The Matrix : Geração de Mundo em Horizonte Infinito com Controle de Movimento em Tempo Real. arXiv 2024.12
[Artigo] [Projeto]
Solicitação de movimento : controlando a geração de vídeo com trajetórias de movimento. arXiv 2024.12
[Artigo] [Projeto]
Explorador Mundial Generativo. arXiv 2024.11
[Artigo] [Projeto]
[ WebDreamer ] Seu LLM é secretamente um modelo mundial da Internet? Planejamento Baseado em Modelo para Agentes Web. arXiv 2024.11
[Artigo] [Código]
WHALE : Rumo a modelos mundiais generalizáveis e escaláveis para tomada de decisões incorporadas. arXiv 2024.11
[artigo]
DINO-WM : Modelos mundiais com recursos visuais pré-treinados permitem planejamento zero-shot. arXiv 2024.11
Yann LeCun
[artigo]
Dimensionando Leis para Agentes de Pré-treinamento e Modelos Mundiais. arXiv 2024.11
[artigo]
[ Phyworld ] Quão distante está a geração de vídeo do modelo mundial: uma perspectiva da lei física. arXiv 2024.11
[Artigo] [Projeto]
IGOR : As representações Image-GOal são as unidades de controle atômico para modelos básicos em IA incorporada. arXiv 2024.10
[Artigo] [Projeto]
EVA : um modelo de mundo incorporado para antecipação de vídeos futuros. arXiv 2024.10
[artigo]
VisualPredicator : Aprendendo Modelos de Mundo Abstratos com Predicados Neuro-Simbólicos para Planejamento de Robôs. arXiv 2024.10
[artigo]
[ LLMCWM ] Agentes linguísticos encontram causalidade - conectando LLMs e modelos de mundo causal. arXiv 2024.10
[Artigo] [Código]
Modelos mundiais sem recompensa para aprendizagem de imitação on-line. arXiv 2024.10
[artigo]
Agentes Web com Modelos Mundiais : Aprendendo e Aproveitando a Dinâmica Ambiental na Navegação Web. arXiv 2024.10
[artigo]
[ GLIMO ] Fundamentando grandes modelos de linguagem em ambientes incorporados com modelos de mundo imperfeitos. arXiv 2024.10
[artigo]
AVID : Adaptando Modelos de Difusão de Vídeo a Modelos Mundiais. arXiv 2024.10
[Artigo] [Código]
[ WMP ] Percepção baseada em modelo mundial para locomoção visual com pernas. arXiv 2024.9
[Artigo] [Projeto]
[ OSWM ] Modelos de mundo únicos usando um transformador treinado em um antecedente sintético. arXiv 2024.9
[artigo]
R-AIF : Resolvendo tarefas robóticas de recompensa esparsa a partir de pixels com inferência ativa e modelos mundiais. arXiv 2024.9
[artigo]
Representando informações posicionais em modelos mundiais generativos para manipulação de objetos. arXiv 2024.9
[artigo]
Transformando grandes modelos de linguagem em modelos mundiais com conhecimento de pré-condições e efeitos. arXiv 2024.9
[artigo]
DexSim2Real$^2$ : Construindo um modelo de mundo explícito para manipulação hábil de objetos articulados e precisos. arXiv 2024.9
[artigo]
Exploração eficiente e aprendizagem discriminativa de modelos mundiais com uma abstração centrada em objetos. arXiv 2024.8
[artigo]
[ MoReFree ] Modelos mundiais aumentam a autonomia na aprendizagem por reforço. arXiv 2024.8
[Artigo] [Projeto]
UrbanWorld : um modelo de mundo urbano para geração de cidades em 3D. arXiv 2024.7
[artigo]
PWM : Aprendizagem de Políticas com Grandes Modelos Mundiais. arXiv 2024.7
[Artigo] [Código]
Predição versus atuação : uma compensação entre modelagem mundial e modelagem de agente. arXiv 2024.7
[artigo]
[ GenRL ] Modelos mundiais de base multimodal para agentes incorporados generalistas. arXiv 2024.6
[Artigo] [Código]
[ DLLM ] Modelos mundiais com dicas de grandes modelos de linguagem para cumprimento de metas. arXiv 2024.6
[artigo]
Mapa Cognitivo para Modelos de Linguagem: Planejamento Ideal por meio da Representação Verbal do Modelo Mundial. arXiv 2024.6
[artigo]
CityBench : Avaliando as capacidades do modelo de linguagem grande como modelo mundial. arXiv 2024.6
[Artigo] [Código]
CoDreamer : Modelos mundiais descentralizados baseados em comunicação. arXiv 2024.6
[artigo]
[ EBWM ] Modelos mundiais baseados em energia de inspiração cognitiva. arXiv 2024.6
[artigo]
Avaliando o modelo mundial implícito em um modelo generativo. arXiv 2024.6
[Artigo] [Código]
Transformadores e codificação de slot para modelagem eficiente de mundo físico. arXiv 2024.5
[Artigo] [Código]
[ Marionetista ] Modelos de mundo hierárquicos como controladores humanóides visuais de corpo inteiro. arXiv 2024.5
Yann LeCun
[Artigo] [Código]
Modelo BWArea : Modelo do Mundo de Aprendizagem, Dinâmica Inversa e Política para Geração de Linguagem Controlável. arXiv 2024.5
[artigo]
Pandora : Rumo ao Modelo Mundial Geral com Ações de Linguagem Natural e Estados de Vídeo. [Papel] [Código]
[ WKM ] Planejamento de Agentes com Modelo de Conhecimento Mundial. arXiv 2024.5
[Artigo] [Código]
Newton ™ – um modelo básico inédito para a compreensão do mundo físico. Archetype AI
[Blog]
Competir e compor : aprendendo mecanismos independentes para modelos mundiais modulares. arXiv 2024.4
[artigo]
MagicTime : modelos de geração de vídeo com lapso de tempo como simuladores metamórficos. arXiv 2024.4
[Artigo] [Código]
Sonhando com muitos mundos : aprender modelos mundiais contextuais auxilia na generalização zero-shot. arXiv 2024.3
[Artigo] [Código]
ManiGaussian : Respingos Gaussianos Dinâmicos para Manipulação Robótica Multitarefa. arXiv 2024.3
[Artigo] [Código]
V-JEPA : Arquitetura Preditiva de Incorporação Conjunta de Vídeo. Meta AI
Yann LeCun
[Blog] [Artigo] [Código]
[ IWM ] Aprendendo e aproveitando modelos mundiais na aprendizagem de representação visual. Meta AI
[artigo]
Genie : ambientes interativos generativos. DeepMind
[Artigo] [Blog]
[ Sora ] Modelos de geração de vídeo como simuladores de mundo. OpenAI
[relatório técnico]
[ LWM ] Modelo mundial em vídeo e linguagem de um milhão de comprimento com RingAttention. arXiv 2024.2
[Artigo] [Código]
Planejando com um Conjunto de Modelos Mundiais. OpenReview
[Artigo]
WorldDreamer : Rumo a modelos mundiais gerais para geração de vídeo por meio da previsão de tokens mascarados. arXiv 2024.1
[Artigo] [Código]
ICLR 2023 Oral
[Artigo] [Código da Tocha]NIPS 2023
[Artigo] [Código da Tocha]ICLR 2023
[Artigo] [Código da Tocha]arXiv 2023.8
[Artigo] [Código JAX]arXiv 2023.1
[Artigo] [Código JAX] [Código da tocha]ICML 2022
[Artigo][Código da Tocha]ICML 2022
[Artigo] [Código TF]CoRL 2022
[Artigo] [Código TF]NIPS 2022
[Artigo] [Código TF]NIPS 2022 Spotlight
[Artigo] [Código da Tocha]arXiv 2022.3
[artigo]ICLR 2021
[Artigo] [Código TF] [Código da Tocha]ICRA 2021
[artigo]ICLR 2020
[Artigo] [Código TF] [Código da Tocha]ICML 2020
[Artigo] [Código TF] [Código Tocha]NIPS 2018 Oral
[artigo]