Downcodes の編集者は、Waymo が最近大きな開発を発表したことを知りました。それは、自動運転タクシー開発のための、Google のマルチモーダル大規模言語モデル (MLLM) Gemini に基づく新しいトレーニング モデル EMMA の開発です。 EMMA はセンサー データを処理し、自動運転車の将来の軌道を生成し、経路計画や障害物回避における車両の意思決定を支援します。この画期的な成果は、自動運転分野における MLLM の最初の重要な応用を示しており、LLM の応用シナリオがチャット ロボット、電子メール管理などから新しい道路環境に拡大することを示しています。
EMMA モデルは、自動運転のリーダーが業務で MLLM の使用を計画していることを示す最初の兆候の 1 つであり、これらの LLM がチャットボット、電子メール マネージャー、画像ジェネレーターとしての現在の用途を超えて、まったく新しい環境への道を見つけることができることを示しています。道路のアプリケーションを見つけます。
Waymo の研究チームは、Gemini のような MLLM が自動運転システムに興味深いソリューションを提供している理由は 2 つあると述べています。チャットボットは、インターネットから収集した大量のデータで訓練された「ジェネラリスト」であり、「世界の豊富な『世界知識』を超えた情報を提供できます」 「通常の運転ログに含まれるコンテンツ」であり、複雑なタスクを一連の論理ステップに分解することで人間の推論を模倣する「思考連鎖推論」などの技術を通じて、「優れた」推論能力を実証します。
Waymo の EMMA モデルは、軌道予測、物体検出、道路地図の理解において優れた性能を発揮しますが、LIDAR やレーダーからの 3D センサー入力を統合できないことや、少数の画像フレームしか処理できないことなどの制限もあります。ある時間。たとえば、自動運転タクシーの訓練に MLLM を使用すると、モデルが幻覚を起こしたり、単純なタスクを完了できなくなる可能性もあります。
。その結果、ウェイモは、これらの問題を軽減し、最先端の自動運転モデルアーキテクチャをさらに開発するには、さらなる研究が必要であると述べています。
Waymo の EMMA モデルにはいくつかの制限がありますが、自動運転の分野におけるその技術的進歩は依然として印象的です。今後も技術の開発・改良が進み、MLLMに基づく自動運転技術は、より安全で便利な旅行体験を私たちにもたらしてくれると信じています。 Downcodes 編集者は今後も Waymo の今後の動向に注目していきますので、ご期待ください。