Tencent AI Lab y el equipo de la Universidad China de Hong Kong colaboraron para desarrollar UniRepLKNet, un modelo multimodal basado en CNN de gran núcleo, con el objetivo de desafiar el dominio de Transformer en el campo multimodal. El modelo funciona bien en el procesamiento de nubes de puntos, datos de audio y video, etc. Su ventaja es que puede adaptarse a diferentes tipos de datos sin cambiar la estructura del modelo. UniRepLKNet ha superado el modelo Transformer en pruebas comparativas como ImageNet, COCO y ADE20K, lo que demuestra el enorme potencial de CNN de gran núcleo en aplicaciones multimodales y proporciona nuevas direcciones e ideas para la investigación multimodal.
Tencent AI Lab colaboró con el equipo chino de Hong Kong para lanzar UniRepLKNet y desafiar el dominio de Transformer en el campo multimodal. Esta arquitectura CNN de gran núcleo funciona bien en nubes de puntos, audio, video y otras tareas sin cambiar la estructura del modelo. UniRepLKNet superó a Transformer en tareas como ImageNet, COCO y ADE20K, lo que demuestra el potencial de CNN de gran núcleo en aplicaciones multimodales.
El éxito de UniRepLKNet muestra que la arquitectura CNN de núcleo grande es competitiva en tareas multimodales y proporciona nuevas ideas para el diseño de futuros modelos multimodales. Su característica de no necesitar cambiar la estructura del modelo también simplifica la aplicación del modelo y mejora la eficiencia del desarrollo. El resultado de esta investigación ha aportado nuevos avances a la investigación multimodal en el campo de la inteligencia artificial y merece más atención e investigación en profundidad.