Исследовательские группы из таких учреждений, как Китайский университет Гонконга и Китайская академия наук, недавно запустили полномодальную парадигму предварительного обучения под названием MiCo, которая добилась прорывного прогресса в области мультимодального обучения и обновила 37 современных методов обучения. - пластинки художественного перформанса (SOTA). MiCo стремится создать полномодальный интеллект, который сможет понимать любую модальность и изучать универсальные представления, а также моделировать мультимодальный когнитивный процесс человеческого мозга, вводя больше модальностей, объемов данных и параметров модели. Суть состоит в том, чтобы разделить различные режимы на «режим знаний» и «режим интерфейса» и разработать соответствующую полномодальную архитектуру обучения с использованием мультимодального контекста для усиления взаимного усиления между модальностями и построения кросс-модальных контекстных отношений. Этот результат исследования дает новые направления и идеи для развития области искусственного интеллекта.
Новости с сайта ChinaZ.com от 17 июня: Исследовательская группа из Китайского университета Гонконга, Китайской академии наук и других учреждений предложила полномодальную парадигму предварительного обучения под названием MiCo (Мультимодальный контекст). Этот метод дает замечательные результаты. был достигнут в области мультимодального обучения, установив 37 рекордов современной производительности (SOTA).
Основные функции:
Полномодальное понимание: MiCo стремится создать полномодальный интеллект, который сможет понимать любую модальность и изучать универсальные представления.
Масштабное предварительное обучение: вводя больше модальностей, объемов данных и параметров модели, MiCo имитирует мультимодальный когнитивный процесс человеческого мозга во время процесса предварительного обучения.
Проектирование структуры нейронной сети: MiCo делит различные режимы на «режим знаний» и «режим интерфейса» и разрабатывает соответствующую полномодальную архитектуру обучения, которая согласовывается с помощью методов генеративного рассуждения.
Мультимодальный контекст и закон масштабирования: MiCo использует мультимодальный контекст для усиления взаимного усиления между модальностями и построения межмодальных контекстных отношений.
Результаты эксперимента показывают:
В одномодальном тесте на восприятие 10 различных режимов компания MiCo достигла 7 результатов SOTA.
В 25 кросс-модальных задачах понимания, включая поиск, вопросы и ответы, описание и т. д., MiCo достигла 20 результатов SOTA.
В 18 мультимодальных крупномасштабных тестах производительности языковых моделей компания MiCo получила в общей сложности 10 результатов SOTA.
Метод предварительной подготовки MiCo:
Команда использовала видео и парное аудио, текстовые описания, глубину и нормали для совместной предварительной тренировки, чтобы моделировать возможности зрительного, слухового и пространственно-временного восприятия человеческого мозга.
Мультимодальные контекстные связи создаются путем извлечения мультимодальных функций с помощью всемодального кодировщика (например, ViT) и извлечения текстовых объектов с помощью текстового кодировщика.
Выводы и дальнейшая работа:
Проект MiCo — это важная попытка искусственного интеллекта смоделировать мультимодальное мышление человеческого мозга. Команда ожидает, что он вдохновит будущие исследования и разработку более мощных полномодальных базовых моделей.
Планы на будущее включают объединение большего количества модальностей, таких как оптический поток, данные IMU и файлы событий, чтобы продолжать совершенствовать полномодальную совместную предварительную тренировку.
Выдающиеся результаты MiCo установили новый стандарт в области мультимодального обучения. Ее потенциал будущего развития огромен и заслуживает постоянного внимания. Будущее направление исследований команды также заслуживает внимания, и я верю, что MiCo продолжит способствовать развитию технологий искусственного интеллекта.