Tencent AI Lab et l'équipe de l'Université chinoise de Hong Kong ont collaboré pour développer UniRepLKNet, un modèle multimodal basé sur CNN à grand cœur, visant à remettre en question la domination de Transformer dans le domaine multimodal. Le modèle fonctionne bien dans le traitement des nuages de points, des données audio et vidéo, etc. Son avantage est qu'il peut s'adapter à différents types de données sans modifier la structure du modèle. UniRepLKNet a surpassé le modèle Transformer dans des tests de référence tels que ImageNet, COCO et ADE20K, prouvant l'énorme potentiel du CNN à grand cœur dans les applications multimodales et fournissant de nouvelles orientations et idées pour la recherche multimodale.
Tencent AI Lab a collaboré avec l'équipe chinoise de Hong Kong pour lancer UniRepLKNet afin de contester la domination de Transformer dans le domaine multimodal. Cette architecture CNN à grand cœur fonctionne bien sur les tâches de nuage de points, audio, vidéo et autres sans modifier la structure du modèle. UniRepLKNet a surpassé Transformer dans des tâches telles que ImageNet, COCO et ADE20K, démontrant le potentiel du CNN à grand cœur dans les applications multimodales.
Le succès d'UniRepLKNet montre que l'architecture CNN à grand cœur est compétitive dans les tâches multimodales et fournit de nouvelles idées pour la conception de futurs modèles multimodaux. Sa particularité de ne pas avoir besoin de modifier la structure du modèle simplifie également l'application du modèle et améliore l'efficacité du développement. Ce résultat de recherche a apporté de nouvelles avancées dans la recherche multimodale dans le domaine de l’intelligence artificielle et mérite une attention plus approfondie et des recherches approfondies.