Tim LeCun dan Xie Senin merilis model bahasa multi-modal berskala besar Cambrian-1 yang mengesankan, yang merupakan karya inovatif yang mengutamakan visi. Ini tidak hanya merupakan terobosan teknologi, tetapi juga mewakili pemikiran baru dalam penelitian pembelajaran multi-modal. Sifat open source-nya memberikan sumber daya yang berharga bagi para peneliti dan pengembang. Desain Cambrian-1 berkisar pada lima elemen inti: pembelajaran representasi visual, desain konektor, penyesuaian data instruksi, strategi penyesuaian instruksi, dan pengujian benchmark. Ia bekerja dengan baik pada tugas-tugas bahasa visual dan bahkan sebanding dengan beberapa model kepemilikan teratas . Namun, tim peneliti juga terus terang menunjukkan kekurangan model dalam kemampuan dialog dan secara aktif meresponsnya dengan memperbaiki metode pelatihan.
Di dunia AI, kami baru saja menyambut anggota baru yang menarik perhatian - Cambrian-1, model bahasa besar multi-modal (MLLM) yang dibuat bersama oleh raksasa industri seperti LeCun dan Xie Saining. Kemunculan model ini bukan hanya merupakan lompatan teknologi, namun juga merupakan refleksi mendalam terhadap penelitian pembelajaran multimodal.
Filosofi desain Cambrian-1 mengutamakan visi, yang sangat berharga dalam penelitian AI yang berpusat pada bahasa saat ini. Hal ini mengingatkan kita bahwa bahasa bukanlah satu-satunya cara bagi manusia untuk memperoleh pengetahuan, dan pengalaman indrawi seperti penglihatan, pendengaran, dan sentuhan juga sama pentingnya. Sumber terbuka Cambrian-1 menyediakan sumber daya berharga bagi semua peneliti dan pengembang yang tertarik dengan pembelajaran multimodal.
Konstruksi model ini berkisar pada lima elemen inti: pembelajaran representasi visual, desain konektor, data penyetelan instruksi, strategi penyempurnaan instruksi, dan pengujian benchmark. Setiap elemen merupakan eksplorasi mendalam terhadap ruang desain MLLM dan mencerminkan wawasan unik tim peneliti terhadap masalah yang ada.
Perlu disebutkan bahwa kinerja Cambrian-1 dalam tugas bahasa visual sangat mengesankan. Tidak hanya mengungguli model open source lainnya, ia bahkan menyamai model kepemilikan teratas di industri dalam beberapa tolok ukur. Di balik pencapaian ini terdapat pemikiran inovatif tim peneliti mengenai penyempurnaan instruksi dan desain konektor.
Namun jalur penelitian Cambrian-1 belum berjalan mulus. Para peneliti menemukan bahwa MLLM yang terlatih sekalipun mungkin memiliki kekurangan dalam kemampuan percakapan, sebuah fenomena yang dikenal sebagai "fenomena mesin penjawab". Untuk mengatasi masalah ini, mereka menambahkan perintah sistem ke pelatihan untuk mendorong model terlibat dalam percakapan yang lebih kaya.
Kesuksesan Cambrian-1 tidak lepas dari kuatnya tim peneliti di baliknya. Di antara mereka, Shengbang Tong adalah salah satu penulis makalah ini, dan kontribusinya tidak dapat diabaikan. Saat ini, ia sedang belajar PhD di New York University, di bawah pengawasan Profesor Yann LeCun dan Profesor Xie Saining. Minat penelitiannya mencakup model dunia, pembelajaran tanpa pengawasan/mandiri, model generatif, dan model multimodal.
Open source Cambrian-1 membawa angin segar bagi komunitas AI. Ini tidak hanya menyediakan alat pembelajaran multi-modal yang kuat, namun juga menginspirasi orang untuk memikirkan secara mendalam tentang penelitian pembelajaran multi-modal. Dengan semakin banyaknya peneliti dan pengembang yang bergabung dalam eksplorasi Cambrian-1, kami mempunyai alasan untuk percaya bahwa hal ini akan menjadi kekuatan penting dalam mendorong pengembangan teknologi AI.
Alamat proyek: https://github.com/cambrian-mllm/cambrian
Makalah: https://arxiv.org/abs/2406.16860
Kemunculan Cambrian-1 telah membawa kemungkinan-kemungkinan baru di bidang AI multi-modal, dan sifat open source-nya juga mendorong kerja sama dan inovasi yang lebih luas. Kami berharap Cambrian-1 dapat menunjukkan kemampuannya yang kuat di lebih banyak bidang di masa depan dan mendorong kemajuan teknologi AI yang berkelanjutan.