Waymo menggunakan model bahasa multimodal besar Google yang kuat, Gemini untuk merevolusi metode pelatihan taksi sendiri. Di jantung terobosan ini adalah model multimodal ujung-ke-ujung yang disebut EMMA, yang dapat memproses data sensor lebih efisien, sehingga menghasilkan prediksi yang lebih akurat dari lintasan mengemudi di masa depan. Langkah ini tidak hanya meningkatkan kecerdasan dan keamanan sistem mengemudi otonom Waymo, tetapi juga menandai lompatan besar dalam penerapan model bahasa besar di bidang mengemudi otonom, menunjukkan bahwa di masa depan, teknologi mengemudi yang otonom akan melampaui desain modular tradisional dan Jadilah lebih pintar, kembangkan ke arah yang lebih mandiri.
Baru -baru ini, Waymo telah mengambil langkah penting lain di bidang mengemudi otonom. Perusahaan telah lama melihat kolaborasinya dengan Google DeepMind sebagai keunggulan kompetitifnya, dan sekarang memanfaatkan model bahasa besar multimoda Google, Gemini, untuk meningkatkan pelatihan taksi self-drivingnya.
Waymo telah merilis makalah penelitian baru yang memperkenalkan "model multimodal end-to-end" yang disebut Emma, yang mampu memproses data sensor untuk menghasilkan lintasan mengemudi di masa depan kendaraan otonom. Ini berarti kendaraan tanpa pengemudi Waymo dapat membuat keputusan mengemudi secara lebih cerdas dan efektif menghindari hambatan.
Pentingnya teknologi baru ini tidak hanya dalam inovasinya, tetapi juga dalam potensinya untuk mengubah ruang lingkup aplikasi sebagian besar model bahasa besar saat ini. Waymo ingin melihat MLLM sebagai "warga negara kelas 1" dari sistem mengemudi otonomnya, yang berarti bahwa mengemudi otonom di masa depan mungkin sangat berbeda dari chatbots saat ini atau generator gambar.
Dalam makalah ini, Waymo menyebutkan bahwa sistem mengemudi otonom tradisional biasanya mengembangkan "modul" spesifik untuk berbagai fungsi, termasuk persepsi, pemetaan, prediksi, dan perencanaan. Sementara pendekatan ini telah membuat beberapa kemajuan dalam beberapa tahun terakhir, keterbatasannya juga jelas, terutama ketika berhadapan dengan lingkungan baru dan kompleks. Waymo percaya bahwa MLLM seperti Gemini dapat menyelesaikan masalah ini karena mereka memiliki "pengetahuan dunia" yang luas dan mampu melakukan "penalaran pemikiran rantai" untuk mensimulasikan penalaran logis manusia.
Model Emma dikembangkan untuk membantu taksi self-driving Waymo menavigasi di lingkungan yang kompleks. Misalnya, saat menghadapi situasi seperti hewan atau konstruksi jalan, Emma dapat membantu mobil tanpa pengemudi menemukan jalur mengemudi terbaik. Namun, Waymo juga menyadari bahwa EMMA memiliki beberapa keterbatasan, seperti ketidakmampuan saat ini untuk memproses input sensor 3D dari lidar atau radar.
Penelitian Waymo di bidang ini membutuhkan kedalaman lebih lanjut, tetapi mereka berharap pencapaian ini akan menginspirasi lebih banyak penelitian untuk mengatasi masalah saat ini dan mempromosikan pengembangan teknologi mengemudi yang otonom.
Poin -Poin Kunci:
Waymo menggunakan model Gemini Google untuk mengembangkan sistem pelatihan taksi otonom baru, EMMA, untuk meningkatkan kemampuan pengambilan keputusan.
Model EMMA mampu memproses data sensor yang kompleks, membantu kendaraan tanpa pengemudi dengan cerdas menghindari hambatan.
Sementara Emma memiliki potensi, Waymo mengakui bahwa penelitian lebih lanjut masih diperlukan untuk mengatasi keterbatasan yang ada.
Model EMMA Waymo merupakan lompatan yang signifikan dalam teknologi penggerak otonom, yang memanfaatkan model bahasa besar untuk memproses data multimodal untuk membuka jalan bagi sistem penggerak otonom yang lebih aman dan lebih cerdas di masa depan. Meskipun tantangan tetap ada, penelitian ini tidak diragukan lagi membawa harapan baru untuk pengembangan bidang mengemudi otonom di masa depan.