Nos últimos anos, a tecnologia de pintura por IA avançou rapidamente, mas ainda existem algumas cenas aparentemente simples que são difíceis de apresentar perfeitamente. Uma equipe de pesquisa da Universidade Jiao Tong de Xangai descobriu que a IA falhou repetidamente em gerar a cena de "Coca-Cola gelada em uma xícara de chá", o que despertou a atenção acadêmica sobre o problema do desalinhamento texto-imagem. A equipe investigou esse “problema da xícara de chá” e propôs um novo método chamado Mixture of Concept Experts (MoCE), que resolve efetivamente o problema oculto de incompatibilidade de conceitos na geração de imagens de IA.
No campo da inteligência artificial, as capacidades dos pintores de IA têm feito constantes avanços e melhorias. No entanto, mesmo os modelos mais avançados de geração de imagens de IA podem ter dificuldades com certas tarefas aparentemente simples. Recentemente, Zhao Juntu, doutorando na Universidade Jiao Tong de Xangai, e sua equipe descobriram em sua pesquisa que a IA mostrava dificuldades inesperadas ao gerar a cena de "cola gelada em uma xícara de chá".
Esse fenômeno tem atraído a atenção do meio acadêmico e é denominado desalinhamento texto-imagem. Em outubro de 2023, quando o modelo de geração de imagens de IA estava surgindo, Zhao Juntu e sua equipe o experimentaram e descobriram que, quando os pintores de IA construíam essa cena, muitas vezes desenhavam um copo transparente cheio de Coca-Cola gelada em vez de uma xícara de chá. Mesmo quando testados em julho de 2024 utilizando modelos de última geração, os resultados ainda foram insatisfatórios.
A fim de explorar esta questão em profundidade, o grupo de pesquisa do professor Wang Dequan da Universidade Shanghai Jiao Tong classifica este problema como contendo variáveis ocultas no próximo artigo "Perdido na tradução: desalinhamento de conceito latente em modelos de difusão de texto para imagem" Desalinhamento problema (desalinhamento de conceito latente, conhecido como LC-Mis). Eles projetaram um sistema baseado em grandes modelos de linguagem (LLMs) para usar o pensamento humano contido nos LLMs para ajudar a coletar rapidamente pares de conceitos com problemas semelhantes.
A equipe de pesquisa propôs um método chamado Mixture of Concept Experts (MoCE), que integra as regras da pintura sequencial no processo de amostragem em várias etapas dos modelos de difusão, e recuperou com sucesso a xícara de chá perdida.
Ele divide todo o processo de amostragem em dois estágios: o primeiro estágio fornece apenas conceitos facilmente esquecidos e o segundo estágio usa prompts de texto completos. Com esta abordagem, o MoCE consegue controlar com mais precisão o alinhamento entre texto e imagens ao gerar imagens.
O método MoCE reduz significativamente a proporção de pares de conceitos LC-Mis de nível 5 e até supera Dall・E3 (versão de outubro de 2023), que requer uma grande quantidade de custos de anotação de dados até certo ponto.
Além disso, a equipa de investigação também descobriu que os indicadores de avaliação automatizada existentes apresentam falhas óbvias quando enfrentam este tipo de novos problemas. Por exemplo, alguns indicadores de avaliação atribuem uma pontuação mais baixa à Coca-Cola gelada numa chávena de chá, mas atribuem uma pontuação mais elevada à Coca-Cola gelada num copo transparente. Isto sugere que mesmo as próprias ferramentas para avaliar o desempenho da IA podem ter preconceitos e limitações.
Os pesquisadores planejam explorar cenários LC-Mis mais complexos em trabalhos futuros e desenvolver algoritmos de busca que podem ser aprendidos para reduzir o número de iterações. Eles também planejam expandir os tipos de modelos, versões de modelos e tipos de amostras usados no conjunto de dados e continuar a iterar no algoritmo de coleta do conjunto de dados para aprimorar e expandir o conjunto de dados.
Esta pesquisa não só fornece uma nova perspectiva para a compreensão das limitações da IA na geração de imagens, mas também fornece novas ideias e métodos para melhorar as capacidades de geração de imagens da IA. À medida que a tecnologia continua a avançar, esperamos que a IA faça maiores avanços na compreensão e reprodução da criatividade humana.
Endereço do projeto: https://lcmis.github.io/
Artigo: https://arxiv.org/pdf/2408.00230
Este estudo sobre o "problema da xícara de chá" na geração de imagens de IA revela as limitações dos modelos de IA no tratamento de conceitos sutis e também fornece uma referência valiosa para a direção futura do desenvolvimento da tecnologia de IA. O método MoCE proposto pela equipa de investigação e a reflexão sobre os indicadores de avaliação existentes levarão a tecnologia de geração de imagens de IA para o próximo nível.