Waymoは最近、Googleのマルチモーダル大手言語モデル(MLLM)Geminiに基づいた新しいトレーニングモデルを自動運転するタクシー開発のための新しいトレーニングモデルを開発しました。 EMMA(自律運転のエンドツーエンドのマルチモーダルモデル)と呼ばれるこの新しいモデルは、センサーデータを処理して自律車の将来の軌跡を生成し、ドライバーレス車がどこに行くか、障害物を回避する方法を決定するのに役立ちます。
EMMAモデルは、自律運転計画のリーダーが運用でMLLMSを使用する最初の兆候の1つであり、これらのLLMがチャットボット、電子メールマネージャー、画像ジェネレーターとしての現在の使用を逃れることができることを示唆しています。アプリケーション。
Waymoの研究チームは、GeminiのようなMllmsは、2つの理由で自動運転システムの興味深いソリューションを提供しています。チャットボットは、「豊かな世界からrawう」の訓練を受けた後、それ以上のものを提供できる「ジェネラリスト」です通常の運転ログに含まれるコンテンツの知識。「思考チェーンの推論」などのテクノロジーを通じて「優れた」推論能力を示し、複雑なタスクを一連の論理的な手順に分解することにより、人間の推論を模倣しています。
WaymoのEMMAモデルは、軌跡の予測、オブジェクトの検出、ロードマップの理解でうまく機能しますが、Lidarまたはレーダーからの3Dセンサー入力を統合できないなどの制限もあり、一度に少数の画像フレームのみを処理できます。 MLLMを使用して自動運転タクシーを訓練することは、モデルが幻覚を経験したり、簡単なタスクを完了したりするなど、リスクをもたらします。
。したがって、Waymoは、これらの問題を軽減し、自律運転モデルアーキテクチャの最新の技術をさらに開発するには、さらなる研究が必要であると述べました。
Waymoのブレークスルーは、自律運転技術の将来の開発方向性を実証し、業界に新しい希望と課題をもたらします。