Tencent AI Lab dan tim Chinese University of Hong Kong berkolaborasi untuk mengembangkan UniRepLKNet, model multi-modal berdasarkan CNN dengan inti besar, yang bertujuan untuk menantang dominasi Transformer di bidang multi-modal. Model ini berkinerja baik dalam memproses data point cloud, audio dan video, dll. Keuntungannya adalah dapat beradaptasi dengan tipe data yang berbeda tanpa mengubah struktur model. UniRepLKNet telah melampaui model Transformer dalam pengujian benchmark seperti ImageNet, COCO dan ADE20K, membuktikan potensi besar CNN inti besar dalam aplikasi multimodal dan memberikan arahan dan ide baru untuk penelitian multimodal.
Tencent AI Lab berkolaborasi dengan tim Tiongkok Hong Kong meluncurkan UniRepLKNet untuk menantang dominasi Transformer di bidang multimodal. Arsitektur CNN inti besar ini bekerja dengan baik pada point cloud, audio, video, dan tugas lainnya tanpa mengubah struktur model. UniRepLKNet melampaui Transformer dalam tugas-tugas seperti ImageNet, COCO, dan ADE20K, menunjukkan potensi CNN inti besar dalam aplikasi multi-modal.
Keberhasilan UniRepLKNet menunjukkan bahwa arsitektur CNN inti besar kompetitif dalam tugas multimodal dan memberikan ide-ide baru untuk desain model multimodal masa depan. Fiturnya yang tidak perlu mengubah struktur model juga menyederhanakan penerapan model dan meningkatkan efisiensi pengembangan. Hasil penelitian ini membawa terobosan baru pada penelitian multimodal di bidang kecerdasan buatan dan patut mendapat perhatian lebih lanjut dan penelitian mendalam.