O editor do Downcodes soube que Waymo anunciou recentemente um grande desenvolvimento: o desenvolvimento de um novo modelo de treinamento EMMA baseado no modelo multimodal de linguagem grande (MLLM) Gemini do Google para o desenvolvimento de táxis autônomos. O EMMA pode processar dados de sensores, gerar a trajetória futura de veículos autônomos e auxiliar na tomada de decisões de veículos no planejamento de trajetórias e na prevenção de obstáculos. Este avanço marca a primeira aplicação importante do MLLM no campo da condução autônoma e indica que os cenários de aplicação do LLM se expandirão de robôs de bate-papo, gerenciamento de e-mail, etc., para novos ambientes rodoviários.
O modelo EMMA é um dos primeiros sinais de que os líderes em direção autônoma planejam usar MLLMs em suas operações, mostrando que esses LLMs podem ir além de seus usos atuais como chatbots, gerenciadores de e-mail e geradores de imagens e encontrar seu caminho para um ambiente totalmente novo. da estrada.
A equipe de pesquisa da Waymo diz que MLLMs como Gemini oferecem soluções interessantes para sistemas autônomos por dois motivos: O chatbot é um “generalista” treinado em grandes quantidades de dados extraídos da Internet e “pode fornecer informações além do “rico ‘conhecimento mundial’ do conteúdo contido em registros de condução comuns"; eles demonstram capacidades de raciocínio "excelentes" através de técnicas como o "raciocínio em cadeia de pensamento", que imita o raciocínio humano, dividindo tarefas complexas em uma série de etapas lógicas.
O modelo EMMA da Waymo tem um bom desempenho na previsão de trajetória, detecção de objetos e compreensão de roteiros, mas também tem limitações, como a incapacidade de integrar a entrada do sensor 3D de lidar ou radar e a capacidade de processar apenas um pequeno número de quadros de imagem em uma vez. Também existem riscos no uso do MLLM para treinar táxis autônomos. Por exemplo, o modelo pode ter alucinações ou ser incapaz de realizar tarefas simples.
. Como resultado, Waymo diz que mais pesquisas são necessárias para mitigar esses problemas e desenvolver ainda mais o que há de mais moderno em arquitetura de modelos autônomos.
Embora o modelo EMMA da Waymo tenha algumas limitações, os seus avanços tecnológicos no campo da condução autónoma ainda são impressionantes. No futuro, com o contínuo desenvolvimento e melhoria da tecnologia, acredito que a tecnologia de condução autónoma baseada em MLLM nos trará uma experiência de viagem mais segura e conveniente. O editor do Downcodes continuará atento ao progresso do acompanhamento do Waymo, então fique ligado!