Downcodes의 편집자는 Waymo가 최근 자율 운전 택시 개발을 위한 Google의 MLLM(다중 모드 대형 언어 모델) Gemini를 기반으로 하는 새로운 훈련 모델 EMMA의 개발이라는 주요 개발을 발표했다는 사실을 알게 되었습니다. EMMA는 센서 데이터를 처리하고 자율주행차의 미래 궤도를 생성하며 경로 계획 및 장애물 회피에 대한 차량 의사결정을 지원할 수 있습니다. 이러한 획기적인 발전은 자율주행 분야에서 MLLM의 첫 번째 중요한 적용을 의미하며, LLM의 적용 시나리오가 채팅 로봇, 이메일 관리 등에서 새로운 도로 환경으로 확장될 것임을 나타냅니다.
EMMA 모델은 자율 주행 분야의 리더들이 운영에 MLLM을 사용할 계획을 나타내는 첫 번째 신호 중 하나이며, 이러한 LLM이 챗봇, 이메일 관리자 및 이미지 생성기로서의 현재 용도를 넘어 완전히 새로운 환경으로 나아갈 수 있음을 보여줍니다. 도로의 응용 프로그램을 찾으십시오.
Waymo의 연구팀은 Gemini와 같은 MLLM이 두 가지 이유로 자율주행 시스템을 위한 흥미로운 솔루션을 제공한다고 말합니다. 챗봇은 인터넷에서 스크랩한 대량의 데이터에 대해 훈련된 '일반주의자'이며 '세계에 대한 풍부한 '세계 지식' 이상의 정보를 제공할 수 있습니다. 일반적인 운전 기록에 포함된 콘텐츠'는 복잡한 작업을 일련의 논리적 단계로 분해하여 인간의 추론을 모방하는 '사고 연쇄 추론'과 같은 기술을 통해 '뛰어난' 추론 능력을 보여줍니다.
Waymo의 EMMA 모델은 궤적 예측, 객체 감지, 도로 지도 이해 등의 성능은 뛰어나지만 라이더나 레이더에서 입력된 3D 센서를 통합할 수 없고, 적은 수의 이미지 프레임만 처리하는 능력 등의 한계도 있습니다. 시간. MLLM을 사용하여 자율 주행 택시를 훈련하는 경우에도 위험이 있습니다. 예를 들어 모델이 환각을 느끼거나 간단한 작업을 완료하지 못할 수 있습니다.
. 결과적으로 Waymo는 이러한 문제를 완화하고 자율주행 모델 아키텍처의 최첨단 기술을 더욱 개발하기 위해서는 추가 연구가 필요하다고 말합니다.
Waymo의 EMMA 모델에는 몇 가지 한계가 있지만 자율주행 분야의 기술적 혁신은 여전히 인상적입니다. 앞으로도 지속적인 기술 개발과 개선을 통해 MLLM을 기반으로 한 자율주행 기술이 우리에게 더욱 안전하고 편리한 여행 경험을 선사할 것이라고 믿습니다. Downcodes 편집자는 Waymo의 후속 진행 상황에 계속해서 주의를 기울일 예정이니 계속 지켜봐 주시기 바랍니다!