Структура 4M, разработанная Федеральной политехнической школой Лозанны (EPFL) в Швейцарии и Apple, обеспечивает эффективное и масштабируемое решение для обучения базовым моделям мультимодального зрения. Платформа умело использует технологию Transformer и обрабатывает различные типы входных данных с помощью тегов, специфичных для модальности, эффективно преодолевая многие проблемы кросс-модального обучения. Его инновация заключается в использовании входных и целевых масок для обучения, демонстрируя отличную производительность при выполнении множества визуальных задач.
Система 4M, совместно запущенная Федеральной политехнической школой Лозанны в Швейцарии и Apple, решает задачу обучения базовым моделям зрения с использованием различных методов. Платформа использует технологию Transformer для обработки нескольких модальностей ввода с помощью тегов, специфичных для модальностей, что повышает масштабируемость и эффективность. Обученный работе с масками ввода и цели, 4М хорошо справляется с множеством задач по зрению, демонстрируя большой потенциал.
Появление структуры 4M знаменует собой значительный прогресс в технологии обучения базовой модели мультимодального видения и обеспечивает прочную основу для расширения будущих приложений искусственного интеллекта. Его эффективность и масштабируемость будут способствовать появлению более инновационных приложений и заслуживают постоянного внимания и углубленных исследований.