В области поиска изображений вопрос о том, как быстро и точно найти целевые изображения, всегда был горячей темой исследований. Традиционные методы поиска на основе текста с трудом справляются с запросами различных стилей, такими как эскизы и художественные картины. Исследовательская группа Юань Ли из Пекинского университета вместе с исследователями из Наньянского технологического университета и Института автоматизации Цинхуа предложила революционный метод «поиска универсальных стилей» и создала соответствующую структуру FreestyleRet для достижения точного поиска изображений разных стилей. прогресс в технологии поиска изображений значительно повысил эффективность и точность поиска и предоставил пользователям более удобный и интеллектуальный поиск изображений.
В эпоху цифровых технологий мы каждый день имеем дело с огромными изображениями. Но задумывались ли вы когда-нибудь о том, как было бы здорово иметь возможность быстро находить нужную картинку по эскизу, художественной картине или даже размытой фотографии Юань из исследовательской группы Пекинского университета Ли вместе с исследователями из Наньянской технологической компании? Университет и Институт автоматизации Цинхуа преподнесли нам такой сюрприз — совершенно новую технологию поиска изображений, которая может обрабатывать запросы самых разных стилей, будь то эскизы или художественные картины. Даже изображения с низким разрешением могут быть точно сопоставлены.
Ядром этой технологии является предложенный ими метод «поиска универсального стиля». Он отличается от традиционного поиска изображений по тексту. Новый метод может обрабатывать несколько стилей запросов и даже комбинированные запросы, такие как эскизы плюс текст, художественные картины плюс текст и т. д. Это не только повышает гибкость поиска, но и значительно повышает его точность.
Для достижения этой цели исследовательская группа создала два уникальных набора данных: DSR (набор данных для поиска в разнообразном стиле) и ImageNet-X. DSR содержит 10 000 естественных изображений и соответствующих текстов четырех стилей поиска, а ImageNet-X содержит 1 миллион естественных изображений с различными аннотациями стилей. Создание этих двух наборов данных обеспечивает богатые ресурсы для обучения и тестирования новых методов.
Еще более интересно то, что исследовательская группа также предложила структуру под названием FreestyleRet. Эта структура эффективно решает проблему несовместимости существующих моделей с различными типами векторов поиска путем извлечения стиля изображения и внедрения его в модель поиска. Платформа FreestyleRet состоит из трех основных модулей: модуля извлечения стилей, модуля построения пространства стилей и модуля тонкой настройки подсказок, основанных на стиле. Эти модули работают вместе, позволяя модели поиска понимать и обрабатывать различные стили векторов запросов.
В экспериментах фреймворк FreestyleRet продемонстрировал отличную производительность. Он не только обеспечивает значительное улучшение производительности Recall@1 и Recall@5 для наборов данных DSR и ImageNet-X, но также демонстрирует хорошие возможности обобщения и масштабируемости при обработке нескольких различных стилей векторов запросов.
Результаты этого исследования были опубликованы публично, а подробный документ можно просмотреть на arXiv. В то же время соответствующий код и наборы данных также были открыты для дальнейшего изучения и применения заинтересованными исследователями и разработчиками.
Это не только технологический скачок в области поиска изображений, но и огромное удобство для каждого из нас в повседневной жизни. Представьте себе, что в будущем, ищем ли мы вдохновение, проводим научные исследования или ежедневно развлекаемся, мы сможем находить нужные нам имиджевые ресурсы быстрее и точнее. Это сила технологий, которая делает все возможным.
Адрес статьи: https://arxiv.org/pdf/2312.02428.
Эта технология поиска изображений, основанная на «поиске универсального стиля», открывает новые возможности для будущего поиска изображений. Ее открытый исходный код и наборы данных будут способствовать дальнейшему развитию в этой области, обеспечат техническую поддержку для большего количества сценариев применения и сделают ее более удобной. эффективного поиска изображений.