Китайский университет Гонконга предложил полномодальную парадигму предварительного обучения MiCo для моделирования когнитивных процессов человеческого мозга

Автор：Eve Cole Время обновления：2025-01-03 17:00:02

Исследовательские группы из таких учреждений, как Китайский университет Гонконга и Китайская академия наук, недавно запустили полномодальную парадигму предварительного обучения под названием MiCo, которая добилась прорывного прогресса в области мультимодального обучения и обновила 37 современных методов обучения. - пластинки художественного перформанса (SOTA). MiCo стремится создать полномодальный интеллект, который сможет понимать любую модальность и изучать универсальные представления, а также моделировать мультимодальный когнитивный процесс человеческого мозга, вводя больше модальностей, объемов данных и параметров модели. Суть состоит в том, чтобы разделить различные режимы на «режим знаний» и «режим интерфейса» и разработать соответствующую полномодальную архитектуру обучения с использованием мультимодального контекста для усиления взаимного усиления между модальностями и построения кросс-модальных контекстных отношений. Этот результат исследования дает новые направления и идеи для развития области искусственного интеллекта.

Новости с сайта ChinaZ.com от 17 июня: Исследовательская группа из Китайского университета Гонконга, Китайской академии наук и других учреждений предложила полномодальную парадигму предварительного обучения под названием MiCo (Мультимодальный контекст). Этот метод дает замечательные результаты. был достигнут в области мультимодального обучения, установив 37 рекордов современной производительности (SOTA).

Основные функции:

Полномодальное понимание: MiCo стремится создать полномодальный интеллект, который сможет понимать любую модальность и изучать универсальные представления.

Масштабное предварительное обучение: вводя больше модальностей, объемов данных и параметров модели, MiCo имитирует мультимодальный когнитивный процесс человеческого мозга во время процесса предварительного обучения.

Проектирование структуры нейронной сети: MiCo делит различные режимы на «режим знаний» и «режим интерфейса» и разрабатывает соответствующую полномодальную архитектуру обучения, которая согласовывается с помощью методов генеративного рассуждения.

Мультимодальный контекст и закон масштабирования: MiCo использует мультимодальный контекст для усиления взаимного усиления между модальностями и построения межмодальных контекстных отношений.

Результаты эксперимента показывают:

В одномодальном тесте на восприятие 10 различных режимов компания MiCo достигла 7 результатов SOTA.

В 25 кросс-модальных задачах понимания, включая поиск, вопросы и ответы, описание и т. д., MiCo достигла 20 результатов SOTA.

В 18 мультимодальных крупномасштабных тестах производительности языковых моделей компания MiCo получила в общей сложности 10 результатов SOTA.

Метод предварительной подготовки MiCo:

Команда использовала видео и парное аудио, текстовые описания, глубину и нормали для совместной предварительной тренировки, чтобы моделировать возможности зрительного, слухового и пространственно-временного восприятия человеческого мозга.

Мультимодальные контекстные связи создаются путем извлечения мультимодальных функций с помощью всемодального кодировщика (например, ViT) и извлечения текстовых объектов с помощью текстового кодировщика.

Выводы и дальнейшая работа:

Проект MiCo — это важная попытка искусственного интеллекта смоделировать мультимодальное мышление человеческого мозга. Команда ожидает, что он вдохновит будущие исследования и разработку более мощных полномодальных базовых моделей.

Планы на будущее включают объединение большего количества модальностей, таких как оптический поток, данные IMU и файлы событий, чтобы продолжать совершенствовать полномодальную совместную предварительную тренировку.

Выдающиеся результаты MiCo установили новый стандарт в области мультимодального обучения. Ее потенциал будущего развития огромен и заслуживает постоянного внимания. Будущее направление исследований команды также заслуживает внимания, и я верю, что MiCo продолжит способствовать развитию технологий искусственного интеллекта.