تستخدم Waymo نموذج اللغة Gemini القوية متعددة الوسائط من Google لإحداث ثورة في أساليب تدريب سيارات الأجرة ذاتية القيادة. في قلب هذا الاختراق ، يوجد نموذج متعدد الوسائط من طرف إلى طرف يسمى EMMA ، والذي يمكنه معالجة بيانات المستشعر بشكل أكثر كفاءة ، وبالتالي توليد تنبؤات أكثر دقة لمسار القيادة في المستقبل. هذه الخطوة لا تحسن فقط ذكاء وسلامة نظام القيادة المستقلة في Waymo ، ولكن أيضًا يمثل قفزة كبيرة في تطبيق نماذج اللغة الكبيرة في مجال القيادة المستقلة ، مما يشير إلى أنه في المستقبل ، ستتجاوز تقنية القيادة المستقلة التصميم المعياري التقليدي ، و كن أكثر ذكاءً ، وتطور في اتجاه أكثر استقلالية.
في الآونة الأخيرة ، اتخذت Waymo خطوة مهمة أخرى في مجال القيادة المستقلة. نظرت الشركة منذ فترة طويلة إلى تعاونها مع Google DeepMind كميزة تنافسية ، وتستفيد الآن من نموذج اللغة الكبير متعدد الوسائط من Google ، Gemini ، لتحسين تدريب سيارات الأجرة ذاتية القيادة.
أصدرت Waymo ورقة بحثية جديدة تقدم "نموذجًا متعدد الوسائط شاملًا" يسمى EMMA ، والذي يمكنه معالجة بيانات المستشعر لإنشاء مسار القيادة المستقبلي للمركبات المستقلة. هذا يعني أن مركبات Waymo بدون سائق يمكنها اتخاذ قرارات القيادة بشكل أكثر ذكاءً وفعالية تتجنب العقبات.
إن أهمية هذه التكنولوجيا الجديدة ليست فقط في ابتكارها ، ولكن أيضًا في إمكاناتها لتغيير نطاق تطبيقات معظم نماذج اللغة الكبيرة في الوقت الحاضر. يريد Waymo أن يرى MLLM كمواطن من الفئة 1 "لنظام القيادة المستقل ، مما يعني أن القيادة المستقلة المستقبلية قد تكون مختلفة تمامًا عن مجموعات الدردشة الحالية أو مولدات الصور.
في هذه الورقة ، ذكرت Waymo أن أنظمة القيادة المستقلة التقليدية عادة ما تطور "وحدات" محددة لمختلف الوظائف ، بما في ذلك الإدراك والتعيين والتنبؤ والتخطيط. على الرغم من أن هذا النهج أحرز بعض التقدم في السنوات القليلة الماضية ، إلا أن حدوده واضحة أيضًا ، خاصة عند التعامل مع بيئات جديدة ومعقدة. يعتقد Waymo أن MLLMs مثل الجوزاء يمكن أن تحل هذه المشكلات لأن لديهم "معرفة عالمية" واسعة النطاق وأنهم قادرون على أداء "التفكير في سلسلة" لمحاكاة التفكير المنطقي البشري.
تم تطوير نموذج EMMA لمساعدة سيارات الأجرة ذاتية القيادة في Waymo في التنقل في بيئات معقدة. على سبيل المثال ، عند مواجهة مواقف مثل الحيوانات أو بناء الطرق ، يمكن أن تساعد إيما السيارات بدون سائق في العثور على أفضل مسار قيادة. ومع ذلك ، أدركت Waymo أيضًا أن EMMA لديها بعض القيود ، مثل عدم القدرة الحالية على معالجة مدخلات المستشعر ثلاثي الأبعاد من Lidar أو الرادار.
يحتاج بحث Waymo في هذا المجال إلى مزيد من العمق ، لكنهم يأملون في أن يلهم هذا الإنجاز المزيد من الأبحاث لمعالجة المشكلات الحالية وتعزيز تطوير تكنولوجيا القيادة المستقلة.
النقاط الرئيسية:
تستخدم Waymo نموذج Gemini من Google لتطوير نظام تدريب سيارات الأجرة المستقل الجديد ، EMMA ، لتحسين قدرات صنع القرار.
نموذج EMMA قادر على معالجة بيانات المستشعر المعقدة ، مما يساعد المركبات بدون سائق بذكاء على تجنب العقبات.
على الرغم من أن إيما لديها إمكانات ، فإن Waymo تقر بأنه لا يزال هناك حاجة إلى مزيد من البحث للتغلب على حدودها الحالية.
يمثل نموذج EMMA من Waymo قفزة كبيرة في تقنية القيادة المستقلة ، والتي تستفيد من نماذج اللغة الكبيرة لمعالجة البيانات متعددة الوسائط لتمهيد الطريق لأنظمة القيادة المستقلة الأكثر أمانًا والأكثر ذكاءً في المستقبل. على الرغم من أن التحديات لا تزال قائمة ، فإن هذه الدراسة تجلب بلا شك أمل جديد للتطور المستقبلي لمجال القيادة المستقلة.