Tencent AI Lab и команда Китайского университета Гонконга совместно разработали UniRepLKNet, мультимодальную модель, основанную на крупноядерной CNN, с целью бросить вызов доминированию Transformer в мультимодальной области. Модель хорошо работает при обработке облаков точек, аудио- и видеоданных и т. д. Ее преимуществом является то, что она может адаптироваться к различным типам данных без изменения структуры модели. UniRepLKNet превзошел модель Transformer в таких тестах производительности, как ImageNet, COCO и ADE20K, доказав огромный потенциал CNN с большим ядром в мультимодальных приложениях и предоставив новые направления и идеи для мультимодальных исследований.
Tencent AI Lab в сотрудничестве с китайской командой из Гонконга запустила UniRepLKNet, чтобы бросить вызов доминированию Transformer в мультимодальной сфере. Эта архитектура CNN с большим ядром хорошо работает с облаком точек, аудио, видео и другими задачами без изменения структуры модели. UniRepLKNet превзошел Transformer в таких задачах, как ImageNet, COCO и ADE20K, продемонстрировав потенциал CNN с большим ядром в мультимодальных приложениях.
Успех UniRepLKNet показывает, что архитектура CNN с большим ядром конкурентоспособна в мультимодальных задачах и дает новые идеи для проектирования будущих мультимодальных моделей. Его особенность, заключающаяся в отсутствии необходимости изменения структуры модели, также упрощает применение модели и повышает эффективность разработки. Этот результат исследования принес новые прорывы в мультимодальных исследованиях в области искусственного интеллекта и заслуживает дальнейшего внимания и углубленных исследований.