O Tencent AI Lab e a equipe da Universidade Chinesa de Hong Kong colaboraram para desenvolver o UniRepLKNet, um modelo multimodal baseado em CNN de grande núcleo, com o objetivo de desafiar o domínio do Transformer no campo multimodal. O modelo tem um bom desempenho no processamento de nuvens de pontos, dados de áudio e vídeo, etc. Sua vantagem é que pode se adaptar a diferentes tipos de dados sem alterar a estrutura do modelo. UniRepLKNet superou o modelo Transformer em testes de benchmark como ImageNet, COCO e ADE20K, comprovando o enorme potencial da CNN de grande núcleo em aplicações multimodais e fornecendo novas direções e ideias para pesquisas multimodais.
O Tencent AI Lab colaborou com a equipe chinesa de Hong Kong para lançar o UniRepLKNet para desafiar o domínio do Transformer no campo multimodal. Essa arquitetura CNN de núcleo grande funciona bem em nuvem de pontos, áudio, vídeo e outras tarefas sem alterar a estrutura do modelo. UniRepLKNet superou o Transformer em tarefas como ImageNet, COCO e ADE20K, demonstrando o potencial da CNN de grande núcleo em aplicações multimodais.
O sucesso do UniRepLKNet mostra que a arquitetura CNN de grande núcleo é competitiva em tarefas multimodais e fornece novas ideias para o design de futuros modelos multimodais. Sua característica de não precisar alterar a estrutura do modelo também simplifica a aplicação do modelo e melhora a eficiência do desenvolvimento. O resultado desta investigação trouxe novos avanços à investigação multimodal no domínio da inteligência artificial e merece mais atenção e investigação aprofundada.