El editor de Downcodes te llevará a conocer LLM2CLIP: ¡una tecnología innovadora que mejora el rendimiento de los modelos CLIP! Como modelo básico multimodal importante, CLIP funciona bien en tareas como la recuperación de texto de imágenes, pero tiene deficiencias en el procesamiento de textos largos. Investigadores de Microsoft y la Universidad de Tongji propusieron el método LLM2CLIP, que utiliza inteligentemente modelos de lenguaje grandes (LLM) para mejorar las capacidades de aprendizaje de representación visual de CLIP y superar las limitaciones del modelo CLIP original.
CLIP, como motor de búsqueda, puede admitir diversas tareas, como clasificación, detección, segmentación y recuperación de texto de imagen. Al mismo tiempo, como extractor de funciones, domina casi todas las tareas de representación intermodal, como la comprensión de imágenes, la comprensión de videos y la generación de texto a imagen o video. El poder de CLIP radica en su capacidad para conectar imágenes con lenguaje natural y capturar el conocimiento humano, gracias a su formación en datos web a gran escala que contienen descripciones textuales detalladas.
Sin embargo, CLIP tiene ciertas limitaciones a la hora de manejar descripciones de texto largas y complejas. Para superar este problema, investigadores de Microsoft y la Universidad de Tongji propusieron el método LLM2CLIP, cuyo objetivo es mejorar el aprendizaje de la representación visual mediante la integración de grandes modelos de lenguaje (LLM). Este método reemplaza audazmente el codificador de texto CLIP original y utiliza el rico conocimiento de los LLM para mejorar el rendimiento del codificador visual de CLIP. Las investigaciones han descubierto que la integración de LLM directamente en CLIP da como resultado una degradación del rendimiento, por lo que es necesario abordar este desafío.
El método LLM2CLIP mejora en gran medida la capacidad de LLM para separar títulos de imágenes al introducir la tecnología de "ajuste del contraste de los subtítulos", logrando así mejoras significativas en el rendimiento.
Los investigadores llevaron a cabo experimentos de ajuste utilizando conjuntos de datos de diferentes tamaños, incluidos CC-3M pequeños, CC-3M y CC-12M de tamaño mediano, y CC-3M, CC-12M, YFCC-15M y Recaption-1B de gran tamaño. . Los resultados muestran que el modelo entrenado con LLM2CLIP funciona mejor que los modelos CLIP y EVA tradicionales en tareas de recuperación de imagen a texto y de texto a imagen.
Al combinarse con modelos como Llava1.5 para entrenamiento multimodal, LLM2CLIP tuvo un buen desempeño en casi todas las pruebas comparativas, especialmente al procesar tareas de recuperación de textos largos y cortos, mejorando el rendimiento del modelo EVA02 anterior en un 16,5%. Este enfoque innovador no solo transforma CLIP de un simple procesamiento de datos en inglés a un poderoso modelo multilingüe, sino que también sienta las bases para futuras investigaciones sobre la capacitación CLIP.
Modelo: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
Código: https://github.com/microsoft/LLM2CLIP/
Documento: https://arxiv.org/abs/2411.04997
La aparición de LLM2CLIP ha traído una nueva dirección al desarrollo de modelos multimodales, y sus avances en el procesamiento de textos largos y tareas en varios idiomas son dignos de atención. Para obtener más información, visite los enlaces proporcionados en el artículo. ¡Esperamos que aparezcan más aplicaciones basadas en LLM2CLIP en el futuro!