Лаборатория NExT++ Национального университета Сингапура и команда Лю Чжиюаня из Университета Цинхуа совместно разработали мощную мультимодальную большую модель, которая объединяет модуль обнаружения и сегментации, что значительно упрощает процесс матирования. Пользователям нужно только использовать естественный язык для описания целевого объекта, а модель может быстро и точно маркировать его и предоставлять соответствующие текстовые пояснения. Эта революционная технология продемонстрировала отличную производительность при работе с несколькими наборами данных, особенно в задачах референтной сегментации и REC.
Большая мультимодальная модель, созданная лабораторией NExT++ Национального университета Сингапура и командой Лю Чжиюаня из Университета Цинхуа, объединяет модуль обнаружения и сегментации, что упрощает матирование изображений. Описывая требования на естественном языке, модель может быстро отмечать искомые объекты и предоставлять текстовые пояснения. Эта модель имеет отличную экспериментальную производительность на нескольких наборах данных задач и имеет хорошую способность относиться к задачам сегментации и REC. Кроме того, в этой модели также представлен метод моделирования позиций, основанный на внедрении, который обладает лучшими возможностями моделирования позиций. Благодаря оптимизации процесса обучения модель также может добиться хорошей производительности при выполнении задач сегментации с небольшим количеством аннотаций.
Метод моделирования позиции на основе внедрения и оптимизированный процесс обучения позволяют ей достигать удовлетворительных результатов в задачах сегментации с ограниченными аннотациями данных, демонстрируя ее высокую адаптивность и практичность, а также закладывая основу для будущих мультимодальных модальностей. новые направления и идеи. Ожидается, что этот результат исследования окажет большое влияние на области обработки изображений и искусственного интеллекта.