Waymoの最新のエンドツーエンドのマルチモーダル自動運転モデルエマは、業界から広範な注目を集めています。 EMMAモデルは、GoogleのGemini大規模な言語モデル(カメラ画像やテキストデータなど)を統合することにより、複雑な道路シナリオと効率的な自律運転決定を実現します。このモデルは、パス予測、オブジェクトの検出、ロードマップの理解などの重要なタスクで優れたパフォーマンスを持っています。自律運転技術の将来の発展のため。
最近、Waymoは「エンドツーエンドのマルチモーダル自律運転モデル」(EMMA)と呼ばれるAI研究モデルを正式にリリースしました。このモデルは、自動運転技術のために特別に訓練され、微調整されており、ジェミニの広範な知識を活用して、複雑な道路シナリオをよりよく理解しています。 Waymoは、公開されている研究論文のモデルの設計哲学と技術的利点について詳しく説明し、純粋なエンドツーエンドアプローチの利点と短所を探ります。
Waymo氏によると、EMMAモデルはGeminiに基づいており、モーションプランニングや3Dオブジェクト検出などの自律運転タスクに焦点を当てる機能を完全に活用しています。このモデルは、複数の重要な自律運転タスクにおける優れたタスク移行機能を示しています。 Waymoは、EMMAが各タスクの個々のモデルのトレーニングと比較して、パス予測、オブジェクト検出、ロードマップ理解のパフォーマンスを大幅に改善したことを指摘しました。
Waymoの研究結果は、EMMAの構築が、将来のよりコアの自律運転タスクの組み合わせのための有望な研究方向を提供することを示しています。 Waymoの副社長兼研究責任者であるDrago Anguelovは次のように述べています。適応可能な運転システム。」
エマはまた、生のカメラ入力とテキストデータを処理する機能においてもうまく機能しました。統一された言語空間を確立し、ジェミニの世界知識と推論能力を最大限に活用することにより、さまざまな駆動出力を生成し、エンドツーエンドの計画の効率を改善できます。
Waymoは、この研究の重要性は自動運転車の適用に限定されるのではなく、現実世界のタスクに高度なAIテクノロジーを適用することにより、複雑な動的環境でAIの能力を拡大することを強調しました。
キーポイント:
EMMAモデルは、Geminiの知識を使用して複雑な道路シナリオを理解する自律運転トレーニング用に設計されています。
従来のモデルと比較して、エマはミッションクリティカルな目的でより効率的なパフォーマンスを示しています。
研究結果は、自律的な運転に適用されるだけでなく、動的環境でのAIの応用電位を拡大します。
要するに、EMMAモデルのリリースは、自律運転技術の分野で大きな進歩を示しています。複雑な現実のシナリオのアプリケーションは、貴重な体験を提供します。