L'éditeur de Downcodes vous fera découvrir LLM2CLIP : une technologie innovante qui améliore les performances des modèles CLIP ! En tant que modèle de base multimodal important, CLIP fonctionne bien dans des tâches telles que la récupération de texte d'image, mais présente des lacunes dans le traitement de textes longs. Des chercheurs de Microsoft et de l'Université Tongji ont proposé la méthode LLM2CLIP, qui utilise intelligemment les grands modèles de langage (LLM) pour améliorer les capacités d'apprentissage de la représentation visuelle du CLIP et surmonter les limites du modèle CLIP original.
CLIP, en tant que moteur de recherche, peut prendre en charge diverses tâches telles que la classification zéro-shot, la détection, la segmentation et la récupération image-texte. Dans le même temps, en tant qu'extracteur de fonctionnalités, il domine presque toutes les tâches de représentation multimodale, telles que la compréhension d'images, la compréhension de vidéos et la génération texte-image ou vidéo. La puissance de CLIP réside dans sa capacité à relier les images au langage naturel et à capturer les connaissances humaines, grâce à sa formation sur des données Web à grande échelle contenant des descriptions textuelles détaillées.
Cependant, CLIP présente certaines limites dans la gestion des descriptions textuelles longues et complexes. Pour surmonter ce problème, des chercheurs de Microsoft et de l'Université Tongji ont proposé la méthode LLM2CLIP, qui vise à améliorer l'apprentissage des représentations visuelles en intégrant de grands modèles de langage (LLM). Cette méthode remplace audacieusement l'encodeur de texte CLIP d'origine et utilise la riche connaissance des LLM pour améliorer les performances de l'encodeur visuel de CLIP. La recherche a montré que l'intégration des LLM directement dans CLIP entraîne une dégradation des performances. Ce défi doit donc être relevé.
La méthode LLM2CLIP améliore considérablement la capacité de LLM à séparer les légendes des images en introduisant la technologie de « réglage fin du contraste des légendes », permettant ainsi d'obtenir des améliorations significatives des performances.
Les chercheurs ont mené des expériences de réglage fin en utilisant des ensembles de données de différentes tailles, notamment des petits CC-3M, des CC-3M et CC-12M de taille moyenne, ainsi que des CC-3M, CC-12M, YFCC-15M et Recaption-1B de grande taille. . Les résultats montrent que le modèle formé à l'aide de LLM2CLIP est plus performant que les modèles CLIP et EVA traditionnels dans les tâches de récupération d'image en texte et de texte en image.
En combinant avec des modèles tels que Llava1.5 pour la formation multimodale, LLM2CLIP a obtenu de bons résultats dans presque tous les tests de référence, en particulier lors du traitement de tâches de récupération de textes longs et courts, améliorant les performances du modèle EVA02 précédent de 16,5 %. Cette approche innovante transforme non seulement CLIP du simple traitement de données anglaises en un puissant modèle multilingue, mais jette également les bases des recherches futures sur la formation CLIP.
Modèle : https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
Code : https://github.com/microsoft/LLM2CLIP/
Article : https://arxiv.org/abs/2411.04997
L'émergence de LLM2CLIP a apporté une nouvelle direction au développement de modèles multimodaux, et ses avancées dans le traitement de textes longs et de tâches multilingues méritent l'attention. Pour plus d’informations, veuillez visiter les liens fournis dans l’article. Dans l'attente de voir davantage d'applications basées sur LLM2CLIP apparaître dans le futur !