Apple сделала важный шаг в области искусственного интеллекта, и они выявили демонстрацию модели 4M на платформе объятий. Эта мультимодальная модель ИИ может обрабатывать различные типы данных, такие как текст, изображения и трехмерные сцены, демонстрируя мощные возможности обработки информации. Загрузив картинку, пользователи могут легко получить подробную информацию, такую как карты глубины, линейные чертежи и т. Д. На рисунке, которая отмечает серьезный прорыв в приложении Apple Ai Technology.
Техническое ядро модели 4M заключается в методе обучения «крупномасштабного мультимодального экранирования». Этот метод позволяет модели одновременно обрабатывать множественные визуальные методы, преобразуя изображения, семантическую и геометрическую информацию в единые токены, тем самым достигая бесшовной связи между различными методами. Этот дизайн не только улучшает универсальность модели, но и открывает новые возможности для будущих мультимодальных приложений искусственного интеллекта.
Движение Apple прервало свою постоянную традицию конфиденциальности в области НИОКР и активно продемонстрировал свою технологическую силу на платформе ИИ с открытым исходным кодом. Открывая модель 4M, Apple не только демонстрирует продвинутый характер своей технологии ИИ, но и также расширила оливковую ветвь сообществу разработчиков, надеясь построить процветающую экосистему около 4 м. Это предвещает возможность более интеллектуальных приложений в экосистеме Apple, таких как Smarter Siri и более эффективное Final Cut Pro.
Тем не менее, запуск модели 4M также вызвал проблемы в практике данных и этике ИИ. В качестве модели ИИ с интенсивной информацией о том, как защитить конфиденциальность пользователей при содействии технологическому прогрессу, будет проблемой, которую Apple должна серьезно рассмотреть. Apple всегда считала себя защитником конфиденциальности пользователя.
С точки зрения методов обучения, 4M принимает инновационный случайно выбранный метод маркировки: участие в маркировке в качестве ввода, а другая часть в качестве цели, тем самым достигая масштабируемости цели обучения. Этот дизайн позволяет 4M рассматривать как изображения, так и текст как цифровые маркеры, значительно улучшая гибкость и адаптивность модели.
Данные обучения модели 4M поступают из CC12M, одного из крупнейших в мире наборов данных с открытым исходным кодом. Хотя этот набор данных богат данными, информация о маркировке не идеальна. Чтобы решить эту проблему, исследователи приняли слабо контролируемый метод псевдо-маркировки, использовали клип, Maskrcnn и другие технологии для создания всесторонних прогнозов набора данных, а затем преобразовали результаты прогнозирования в токены, заложив прочную основу для мультимодальной совместимости 4M.
После обширных экспериментов и тестирования 4M зарекомендовал себя, чтобы иметь возможность выполнять мультимодальные задачи непосредственно без необходимости большого количества предварительного обучения или тонкой настройки конкретных задач. Это все равно, что предоставить AI мультимодальный швейцарский армейский нож, который позволяет ему гибко справляться с различными проблемами. Запуск 4M не только демонстрирует техническую силу Apple в области искусственного интеллекта, но и указывает на направление для будущего разработки приложений искусственного интеллекта.
Демо-адрес: https://huggingface.co/spaces/epfl-vilab/4m