O editor de Downcodes levará você a conhecer o LLM2CLIP: uma tecnologia inovadora que melhora o desempenho dos modelos CLIP! Como um importante modelo básico multimodal, o CLIP tem um bom desempenho em tarefas como recuperação de imagens e textos, mas apresenta deficiências no processamento de textos longos. Pesquisadores da Microsoft e da Universidade de Tongji propuseram o método LLM2CLIP, que usa habilmente grandes modelos de linguagem (LLMs) para aprimorar as capacidades de aprendizagem de representação visual do CLIP e superar as limitações do modelo CLIP original.
O CLIP, como mecanismo de busca, pode suportar diversas tarefas, como classificação zero-shot, detecção, segmentação e recuperação de imagem-texto. Ao mesmo tempo, como extrator de recursos, domina quase todas as tarefas de representação intermodal, como compreensão de imagem, compreensão de vídeo e geração de texto para imagem ou vídeo. O poder do CLIP reside na sua capacidade de conectar imagens com linguagem natural e capturar o conhecimento humano, graças ao seu treinamento em dados da web em grande escala contendo descrições textuais detalhadas.
No entanto, o CLIP tem certas limitações no tratamento de descrições de texto longas e complexas. Para superar esse problema, pesquisadores da Microsoft e da Universidade de Tongji propuseram o método LLM2CLIP, que visa aprimorar o aprendizado de representação visual por meio da integração de grandes modelos de linguagem (LLMs). Este método substitui corajosamente o codificador de texto CLIP original e usa o rico conhecimento dos LLMs para melhorar o desempenho do codificador visual do CLIP. A investigação descobriu que a integração de LLMs diretamente no CLIP resulta na degradação do desempenho, pelo que este desafio precisa de ser abordado.
O método LLM2CLIP melhora muito a capacidade do LLM de separar legendas de imagens, introduzindo a tecnologia de "ajuste fino de contraste de legenda", obtendo assim melhorias significativas de desempenho.
Os pesquisadores conduziram experimentos de ajuste fino usando conjuntos de dados de diferentes tamanhos, incluindo CC-3M pequeno, CC-3M e CC-12M de tamanho médio, e CC-3M, CC-12M, YFCC-15M e Recaption-1B de grande porte. . Os resultados mostram que o modelo treinado usando LLM2CLIP tem desempenho melhor que os modelos tradicionais CLIP e EVA em tarefas de recuperação de imagem para texto e texto para imagem.
Ao combinar com modelos como Llava1.5 para treinamento multimodal, o LLM2CLIP teve um bom desempenho em quase todos os testes de benchmark, especialmente no processamento de tarefas de recuperação de textos longos e curtos, melhorando o desempenho do modelo EVA02 anterior em 16,5%. Esta abordagem inovadora não só transforma o CLIP de um simples processamento de dados em inglês num poderoso modelo multilíngue, mas também estabelece as bases para futuras pesquisas sobre formação CLIP.
Modelo: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
Código: https://github.com/microsoft/LLM2CLIP/
Artigo: https://arxiv.org/abs/2411.04997
O surgimento do LLM2CLIP trouxe uma nova direção para o desenvolvimento de modelos multimodais, e seus avanços no processamento de textos longos e tarefas multilíngues são dignos de atenção. Para obter mais informações, visite os links fornecidos no artigo. Ansioso para que mais aplicativos baseados em LLM2CLIP apareçam no futuro!