Dans le domaine de la récupération d’images, la recherche rapide et précise d’images cibles a toujours été un sujet de recherche brûlant. Les méthodes traditionnelles de récupération de texte sont difficiles à gérer avec divers styles de requête tels que les croquis et les peintures artistiques. Le groupe de recherche Yuan Li de l'Université de Pékin, en collaboration avec des chercheurs de l'Université technologique de Nanyang et de l'Institut d'automatisation de Tsinghua, a proposé une méthode révolutionnaire de « récupération de style universel » et a construit le cadre FreestyleRet correspondant pour obtenir une récupération précise d'images de différents styles. progrès vers la technologie de récupération d’images, amélioration considérable de l’efficacité et de la précision de la récupération et offre aux utilisateurs une expérience de recherche d’images plus pratique et plus intelligente.
À l’ère du numérique, nous traitons chaque jour des images massives. Mais avez-vous déjà pensé à quel point il serait étonnant de pouvoir trouver rapidement l'image souhaitée à travers un croquis, une peinture artistique ou même une photo floue ? Yuan du groupe de recherche Li de l'Université de Pékin, en collaboration avec des chercheurs de Nanyang Technological. L'Université et l'Institut d'automatisation de Tsinghua nous ont apporté une telle surprise : une toute nouvelle technologie de récupération d'images capable de gérer divers styles de requêtes, qu'il s'agisse de croquis ou de peintures artistiques. Même les images à faible résolution peuvent être mises en correspondance avec précision.
Le cœur de cette technologie est la méthode de « récupération de style universel » proposée. Elle est différente de la récupération d'images traditionnelle basée sur du texte. La nouvelle méthode peut gérer plusieurs styles de requête et même des requêtes combinées, telles que des croquis plus du texte, des peintures artistiques plus du texte, etc. Cela améliore non seulement la flexibilité de la récupération, mais améliore également considérablement la précision de la récupération.
Pour atteindre cet objectif, l’équipe de recherche a construit deux ensembles de données uniques : DSR (Diverse-Style Retrieval Dataset) et ImageNet-X. DSR contient 10 000 images naturelles et les textes correspondants de quatre styles de récupération, tandis qu'ImageNet-X contient 1 million d'images naturelles avec diverses annotations de style. La création de ces deux ensembles de données fournit de riches ressources de formation et de test pour les nouvelles méthodes.
Ce qui est encore plus excitant, c'est que l'équipe de recherche a également proposé un framework appelé FreestyleRet. Ce cadre résout efficacement le problème de l'incompatibilité des modèles existants avec différents types de vecteurs de récupération en extrayant le style d'image et en l'injectant dans le modèle de récupération. Le framework FreestyleRet se compose de trois modules principaux : un module d'extraction de style, un module de création d'espace de style et un module de réglage fin des astuces inspirées du style. Ces modules fonctionnent ensemble pour permettre au modèle de récupération de comprendre et de traiter différents styles de vecteurs de requête.
Lors des expériences, le framework FreestyleRet a démontré d'excellentes performances. Il permet non seulement d'améliorer considérablement les performances de Recall@1 et Recall@5 sur les ensembles de données DSR et ImageNet-X, mais présente également de bonnes capacités de généralisation et d'évolutivité lors du traitement de plusieurs styles différents de vecteurs de requête.
Les résultats de cette recherche ont été publiés publiquement et l'article détaillé peut être consulté sur arXiv. Dans le même temps, le code et les ensembles de données pertinents ont également été open source pour une exploration et une application plus approfondies par les chercheurs et développeurs intéressés.
Il s’agit non seulement d’un saut technologique dans le domaine de la récupération d’images, mais aussi d’un immense confort pour chacun d’entre nous dans notre vie quotidienne. Imaginez qu'à l'avenir, que nous soyons à la recherche d'inspiration, que nous menions des recherches universitaires ou que nous nous divertissions quotidiennement, nous serons en mesure de trouver les ressources d'images dont nous avons besoin plus rapidement et plus précisément. C’est la puissance de la technologie qui rend tout possible.
Adresse papier : https://arxiv.org/pdf/2312.02428
Cette technologie de récupération d'images basée sur la « récupération de style universel » apporte de nouvelles possibilités aux futures recherches d'images. Son code source ouvert et ses ensembles de données favoriseront le développement ultérieur dans ce domaine, fourniront un support technique pour davantage de scénarios d'application et le rendront plus pratique. de recherche d'images efficace.