Tim peneliti dari institusi seperti Chinese University of Hong Kong dan Chinese Academy of Sciences baru-baru ini meluncurkan paradigma pra-pelatihan modal penuh yang disebut MiCo, yang telah mencapai kemajuan terobosan di bidang pembelajaran multi-modal dan menyegarkan 37 negara bagian. -rekor pertunjukan seni (SOTA). MiCo bertujuan untuk membangun kecerdasan modal penuh yang dapat memahami modalitas apa pun dan mempelajari representasi universal, serta mensimulasikan proses kognitif multi-modal otak manusia dengan memperkenalkan lebih banyak modalitas, volume data, dan parameter model. Intinya adalah membagi mode yang berbeda menjadi "mode pengetahuan" dan "mode antarmuka", dan merancang arsitektur pembelajaran modal penuh yang sesuai, menggunakan konteks multi-modal untuk memperkuat penguatan timbal balik antar modalitas, dan membangun hubungan kontekstual lintas modal. Hasil penelitian ini memberikan arah dan ide baru bagi pengembangan bidang kecerdasan buatan.
Berita dari ChinaZ.com pada 17 Juni: Sebuah tim peneliti dari Chinese University of Hong Kong, Chinese Academy of Sciences dan institusi lain mengusulkan paradigma pra-pelatihan modal penuh yang disebut MiCo (Konteks Multimodal). telah dicapai di bidang pembelajaran multi-modal, mencetak 37 rekor kinerja canggih (SOTA).
Fitur inti:
Pemahaman modal penuh: MiCo bertujuan untuk membangun kecerdasan modal penuh yang dapat memahami modalitas apa pun dan mempelajari representasi universal.
Pra-pelatihan berskala besar: Dengan memperkenalkan lebih banyak modalitas, volume data, dan parameter model, MiCo mensimulasikan proses kognitif multi-modal otak manusia selama proses pra-pelatihan.
Desain struktur jaringan saraf: MiCo membagi mode berbeda menjadi "mode pengetahuan" dan "mode antarmuka", dan merancang arsitektur pembelajaran modal penuh yang sesuai, yang diselaraskan melalui metode penalaran generatif.
Konteks multimodal dan hukum penskalaan: MiCo menggunakan konteks multimodal untuk memperkuat penguatan timbal balik antar modalitas dan membangun hubungan konteks lintas modal.
Hasil percobaan menunjukkan:
Dalam uji benchmark persepsi modal tunggal dari 10 mode berbeda, MiCo mencapai 7 hasil SOTA.
Dalam 25 tugas pemahaman lintas modal, termasuk pengambilan, tanya jawab, deskripsi, dll., MiCo mencapai 20 hasil SOTA.
Dalam 18 tes benchmark model bahasa multi-modal skala besar, MiCo mencapai total 10 hasil SOTA.
Metode pra-pelatihan MiCo:
Tim menggunakan video dan audio berpasangan, deskripsi teks, kedalaman dan normal untuk pra-pelatihan bersama guna mensimulasikan kemampuan persepsi visual, pendengaran, dan ruang-waktu otak manusia.
Hubungan konteks multimodal dibangun dengan mengekstraksi fitur multimodal menggunakan encoder semua modal (seperti ViT) dan mengekstraksi fitur teks menggunakan encoder teks.
Kesimpulan dan pekerjaan di masa depan:
Proyek MiCo adalah upaya penting kecerdasan buatan untuk mensimulasikan kognisi multi-modal otak manusia. Tim berharap proyek ini dapat menginspirasi penelitian di masa depan dan mengembangkan model dasar modal penuh yang lebih kuat.
Rencana kerja di masa depan mencakup penggabungan lebih banyak modalitas, seperti aliran optik, data IMU, dan file acara, untuk terus meningkatkan pra-pelatihan gabungan modal penuh.
Kinerja MiCo yang luar biasa telah menetapkan tolok ukur baru dalam bidang pembelajaran multi-modal. Potensi pengembangannya di masa depan sangat besar dan patut mendapat perhatian terus-menerus. Arah penelitian tim di masa depan juga patut dinantikan, dan saya yakin MiCo akan terus mendorong kemajuan teknologi kecerdasan buatan.