A Waymo está usando o poderoso modelo de grande idioma multimodal do Google para revolucionar seus métodos de treinamento de táxi autônomos. No centro deste avanço, há um modelo multimodal de ponta a ponta chamado Emma, que pode processar os dados do sensor com mais eficiência, gerando previsões mais precisas de trajetória de direção futura. Esse movimento não apenas melhora a inteligência e a segurança do sistema de direção autônomo de Waymo, mas também marca um grande salto na aplicação de grandes modelos de linguagem no campo da direção autônoma, indicando que, no futuro, a tecnologia de direção autônoma superará o design modular tradicional e Seja mais inteligente, desenvolva -se em uma direção mais independente.
Recentemente, Waymo deu outro passo importante no campo da direção autônoma. A empresa há muito visto sua colaboração com o Google DeepMind como sua vantagem competitiva e agora está aproveitando o modelo multimodal de linguagem multimodal do Google, Gêmei, para melhorar o treinamento de seus táxis autônomos.
A Waymo lançou um novo artigo de pesquisa que introduz um "modelo multimodal de ponta a ponta" chamado Emma, capaz de processar dados do sensor para gerar a futura trajetória de direção de veículos autônomos. Isso significa que os veículos sem motorista de Waymo podem tomar decisões de direção de maneira mais inteligente e efetivamente evitando obstáculos.
A importância dessa nova tecnologia não está apenas em sua inovação, mas também em seu potencial para alterar o escopo das aplicações da maioria dos grandes modelos de idiomas atualmente. A Waymo quer ver a MLLM como um "cidadão da classe 1" de seu sistema de direção autônomo, o que significa que a futura direção autônoma pode ser muito diferente dos atuais chatbots ou geradores de imagens.
Neste artigo, Waymo mencionou que os sistemas de direção autônomos tradicionais geralmente desenvolvem "módulos" específicos para várias funções, incluindo percepção, mapeamento, previsão e planejamento. Embora essa abordagem tenha feito algum progresso nos últimos anos, suas limitações também são óbvias, especialmente ao lidar com ambientes novos e complexos. Waymo acredita que MLLMs como Gemini podem resolver esses problemas porque têm extenso "conhecimento mundial" e são capazes de realizar "raciocínio de pensamento da cadeia" para simular o raciocínio lógico humano.
O modelo Emma foi desenvolvido para ajudar os táxis autônomos de Waymo a navegar em ambientes complexos. Por exemplo, ao encontrar situações como animais ou construção de estradas, a Emma pode ajudar os carros sem motoristas a encontrar o melhor caminho de condução. No entanto, Waymo também percebeu que Emma tem algumas limitações, como a atual incapacidade de processar entradas de sensores 3D do Lidar ou Radar.
A pesquisa de Waymo nessa área precisa de mais profundidade, mas eles esperam que essa conquista inspire mais pesquisas para resolver os problemas atuais e promover o desenvolvimento da tecnologia de direção autônoma.
Pontos -chave:
A Waymo está usando o modelo Gemini do Google para desenvolver um novo sistema de treinamento de táxi autônomo, Emma, para melhorar os recursos de tomada de decisão.
O modelo Emma é capaz de processar dados complexos de sensores, ajudando os veículos sem motorista a evitar obstáculos de forma inteligente.
Embora Emma tenha potencial, Waymo reconhece que ainda são necessárias mais pesquisas para superar suas limitações existentes.
O modelo Emma de Waymo representa um salto significativo na tecnologia de direção autônoma, que aproveita grandes modelos de linguagem para processar dados multimodais para pavimentar o caminho para sistemas de direção autônomos mais seguros e inteligentes no futuro. Embora os desafios permaneçam, este estudo, sem dúvida, traz uma nova esperança para o desenvolvimento futuro do campo da direção autônoma.