Editor Downcodes mengetahui bahwa tim peneliti dari Institut Teknologi Illinois dan universitas lain bersama-sama merilis Robin3D, model bahasa besar adegan 3D baru. Model ini dilatih pada kumpulan data besar yang berisi jutaan instruksi dan mencapai performa canggih pada lima tolok ukur pembelajaran multimodal 3D yang umum digunakan. Inovasi Robin3D terletak pada mesin data RIG, yang dapat menghasilkan data instruksi yang berlawanan dan terdiversifikasi, sehingga meningkatkan kemampuan diskriminasi, pemahaman dan generalisasi model, mengatasi kekurangan kemampuan generalisasi model bahasa besar 3D dan masalah over-fitting. Ini juga mengintegrasikan teknologi seperti Relationship Augmentation Projector (RAP) dan ID Feature Binding (IFB) untuk meningkatkan pemahaman model tentang pemandangan dan objek.
Model ini dilatih pada kumpulan data berskala besar yang berisi satu juta instruksi yang harus diikuti, dan mencapai performa canggih pada lima tolok ukur pembelajaran multimodal 3D yang umum digunakan, menandai langkah penting dalam membangun 3D universal. Kemajuan yang signifikan ke arah agen cerdas.
Kesuksesan Robin3D berkat mesin data inovatifnya RIG (Robust instruction Generation). Mesin RIG dirancang untuk menghasilkan dua tipe data perintah utama: data kepatuhan perintah permusuhan dan beragam data kepatuhan perintah.
Data tindak lanjut yang bersifat permusuhan meningkatkan pemahaman diskriminatif model dengan mencampurkan sampel positif dan negatif, sementara data tindak lanjut yang beragam berisi berbagai gaya instruksi untuk meningkatkan kemampuan generalisasi model.
Para peneliti menunjukkan bahwa model bahasa besar 3D yang ada saat ini sebagian besar mengandalkan pasangan bahasa visual 3D frontal dan instruksi berbasis template untuk pelatihan, yang menyebabkan kemampuan generalisasi tidak memadai dan risiko overfitting. Robin3D secara efektif mengatasi keterbatasan ini dengan memperkenalkan data instruksi yang berlawanan dan beragam.
Model Robin3D juga mengintegrasikan kemampuan referensi dan pemosisian ID Feature Binding (IFB) Relationship Augmented Projector (RAP). Modul RAP meningkatkan fitur-fitur yang berpusat pada objek dengan informasi kontekstual dan lokasi tingkat pemandangan yang kaya, sementara modul IFB memperkuat hubungan antara setiap ID dengan mengikatnya ke fitur-fiturnya yang sesuai.
Hasil percobaan menunjukkan bahwa Robin3D mengungguli metode terbaik sebelumnya pada lima benchmark termasuk ScanRefer, Multi3DRefer, Scan2Cap, ScanQA dan SQA3D tanpa memerlukan penyesuaian untuk tugas tertentu.
Khususnya dalam evaluasi Multi3DRefer termasuk kasus zero-target, Robin3D mencapai peningkatan signifikan sebesar 7,8% dan 7,3% masing-masing pada indikator [email protected] dan [email protected].
Peluncuran Robin3D menandai kemajuan signifikan dalam kecerdasan spasial model bahasa besar 3D, meletakkan dasar yang kuat untuk membangun agen 3D yang lebih serbaguna dan kuat di masa depan.
Alamat makalah: https://arxiv.org/pdf/2410.00255
Kemunculan Robin3D tidak diragukan lagi membawa terobosan baru di bidang visi 3D dan kecerdasan buatan. Performanya yang kuat dan prospek penerapannya yang luas patut dinantikan. Saya yakin di masa depan, Robin3D akan berperan di lebih banyak bidang dan mendorong pesatnya perkembangan kecerdasan 3D. Redaksi Downcodes akan terus memperhatikan perkembangan terkini di bidang ini.