Waymo는 Google의 강력한 멀티 모달 대형 언어 모델 Gemini를 사용하여 자율 주행 택시 훈련 방법에 혁명을 일으키고 있습니다. 이 돌파구의 핵심에는 Emma라는 엔드 투 엔드 멀티 모드 모델이 있으며, 이는 센서 데이터를보다 효율적으로 처리 할 수 있으므로 향후 운전 궤적에 대한보다 정확한 예측을 생성 할 수 있습니다. 이러한 움직임은 Waymo의 자율 주행 시스템의 지능과 안전성을 향상시킬뿐만 아니라 자율 주행 분야에서 대형 언어 모델을 적용하는 데 큰 도약을 주며, 향후 자율 주행 기술은 전통적인 모듈 식 설계를 능가하고 있으며 더 똑똑하고보다 독립적 인 방향으로 개발하십시오.
최근 Waymo는 자율 주행 분야에서 또 다른 중요한 단계를 밟았습니다. 이 회사는 Google Deepmind와의 협력을 오랫동안 경쟁 우위로보고 있었으며 현재 Google의 멀티 모달 대형 언어 모델 인 Gemini를 활용하여 자율 주행 택시 교육을 개선하고 있습니다.
Waymo는 Emma라는 "엔드 투 엔드 멀티 모달 모델"을 소개하는 새로운 연구 논문을 발표하여 센서 데이터를 처리하여 자율 주행 차량의 향후 주행 궤적을 생성 할 수 있습니다. 이는 Waymo의 무인 차량이 운전 결정을보다 지능적이고 효과적으로 피할 수 있음을 의미합니다.
이 새로운 기술의 중요성은 혁신뿐만 아니라 현재 대부분의 대형 언어 모델의 응용 범위를 변경할 수있는 잠재력에 있습니다. Waymo는 MLLM을 자율 주행 시스템의 "클래스 1 시민"으로보고 싶어합니다. 즉, 미래의 자율 주행은 현재 챗봇이나 이미지 생성기와 매우 다를 수 있습니다.
이 논문에서 Waymo는 전통적인 자율 주행 시스템은 일반적으로 인식, 매핑, 예측 및 계획을 포함한 다양한 기능에 대한 특정 "모듈"을 개발한다고 언급했습니다. 이 접근법은 지난 몇 년 동안 약간의 진전을 이루었지만, 특히 새롭고 복잡한 환경을 다룰 때도 그 한계가 분명합니다. Waymo는 Gemini와 같은 MLLM이 광범위한 "세계 지식"을 가지고 있기 때문에 이러한 문제를 해결할 수 있으며 인간의 논리적 추론을 시뮬레이션하기 위해 "체인 사고 추론"을 수행 할 수 있다고 생각합니다.
Emma 모델은 Waymo의 자율 주행 택시가 복잡한 환경에서 탐색하도록 돕기 위해 개발되었습니다. 예를 들어, 동물이나 도로 건축과 같은 상황을 만날 때 Emma는 무인 자동차가 최고의 운전 경로를 찾도록 도울 수 있습니다. 그러나 Waymo는 또한 Emma가 Lidar 또는 Radar에서 3D 센서 입력을 처리 할 수없는 현재의 제한이 있음을 깨달았습니다.
이 분야에 대한 Waymo의 연구는 더 깊이가 필요하지만,이 성과가 현재의 문제를 해결하고 자율 주행 기술의 발전을 촉진하기위한 더 많은 연구에 영감을주기를 희망합니다.
핵심 사항 :
Waymo는 Google의 Gemini 모델을 사용하여 새로운 자율 택시 훈련 시스템 인 Emma를 개발하여 의사 결정 기능을 향상시킵니다.
Emma 모델은 복잡한 센서 데이터를 처리하여 무인 차량이 장애물을 지능적으로 피할 수 있도록 도와줍니다.
Emma는 잠재력을 가지고 있지만 Waymo는 기존의 한계를 극복하기 위해 여전히 추가 연구가 필요하다는 것을 인정합니다.
Waymo의 Emma 모델은 자율 주행 기술의 상당한 도약을 나타내며, 이는 대형 언어 모델을 활용하여 멀티 모달 데이터를 처리하여 향후 더 안전하고 똑똑한 자율 주행 시스템을위한 길을 열어줍니다. 도전이 남아 있지만,이 연구는 의심 할 여지없이 자율 주행 분야의 미래 발전에 대한 새로운 희망을 가져옵니다.