En los últimos años, la tecnología de pintura con IA ha avanzado rápidamente, pero todavía hay algunas escenas aparentemente simples que son difíciles de presentar a la perfección. Un equipo de investigación de la Universidad Jiao Tong de Shanghai descubrió que la IA fallaba repetidas veces en generar la escena de "Coca-Cola helada en una taza de té", lo que desencadenó la atención académica sobre el problema de la desalineación texto-imagen. El equipo profundizó en este "problema de la taza de té" y propuso un nuevo método llamado Mezcla de Expertos en Conceptos (MoCE), que resuelve eficazmente el problema oculto de la falta de coincidencia de conceptos en la generación de imágenes de IA.
En el campo de la inteligencia artificial, las capacidades de los pintores de IA han logrado avances y mejoras constantemente. Sin embargo, incluso los modelos de generación de imágenes de IA más avanzados pueden tener dificultades con ciertas tareas aparentemente simples. Recientemente, Zhao Juntu, candidato a doctorado en la Universidad Jiao Tong de Shanghai, y su equipo descubrieron en su investigación que la IA mostró dificultades inesperadas al generar la escena de "cola helada en una taza de té".
Este fenómeno ha atraído la atención de los círculos académicos y se denomina desalineación texto-imagen. En octubre de 2023, cuando el modelo de generación de imágenes de IA recién estaba surgiendo, Zhao Juntu y su equipo lo probaron y descubrieron que cuando los pintores de IA construían esta escena, a menudo dibujaban un vaso transparente lleno de Coca-Cola helada en lugar de una taza de té. Incluso cuando se intentó en julio de 2024 utilizando modelos de última generación, los resultados siguieron siendo insatisfactorios.
Para explorar este tema en profundidad, el grupo de investigación del profesor Wang Dequan de la Universidad Jiao Tong de Shanghai clasifica este problema como que contiene variables ocultas en el próximo artículo "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models". problema (desalineación de conceptos latentes, denominada LC-Mis). Diseñaron un sistema basado en modelos de lenguaje grandes (LLM) para utilizar el pensamiento humano contenido en los LLM para ayudar a recopilar rápidamente pares de conceptos con problemas similares.
El equipo de investigación propuso un método llamado Mezcla de Expertos en Conceptos (MoCE), que integra las reglas de la pintura secuencial en el proceso de muestreo de varios pasos de los modelos de difusión, y recuperó con éxito la taza de té perdida.
Divide todo el proceso de muestreo en dos etapas: la primera etapa solo proporciona conceptos que fácilmente se pasan por alto y la segunda etapa utiliza indicaciones de texto completo. Con este enfoque, MoCE puede controlar con mayor precisión la alineación entre el texto y las imágenes al generar imágenes.
El método MoCE reduce significativamente la proporción de pares de conceptos LC-Mis de nivel 5 e incluso supera a Dall・E3 (versión de octubre de 2023), que requiere una gran cantidad de costos de anotación de datos hasta cierto punto.
Además, el equipo de investigación también descubrió que los indicadores de evaluación automatizados existentes tienen fallas obvias al enfrentar este tipo de nuevos problemas. Por ejemplo, algunos indicadores de evaluación dan una puntuación más baja a la Coca-Cola helada en una taza de té, pero dan una puntuación más alta a la Coca-Cola helada en un vaso transparente. Esto sugiere que incluso las propias herramientas para evaluar el desempeño de la IA pueden tener sesgos y limitaciones.
Los investigadores planean explorar escenarios LC-Mis más complejos en trabajos futuros y desarrollar algoritmos de búsqueda que se puedan aprender para reducir el número de iteraciones. También planean ampliar los tipos de modelos, versiones de modelos y tipos de muestras utilizados en el conjunto de datos, y continuar iterando el algoritmo de recopilación del conjunto de datos para mejorar y expandir el conjunto de datos.
Esta investigación no solo proporciona una nueva perspectiva para comprender las limitaciones de la IA en la generación de imágenes, sino que también proporciona nuevas ideas y métodos para mejorar las capacidades de generación de imágenes de la IA. A medida que la tecnología continúa avanzando, esperamos que la IA logre mayores avances en la comprensión y reproducción de la creatividad humana.
Dirección del proyecto: https://lcmis.github.io/
Documento: https://arxiv.org/pdf/2408.00230
Este estudio sobre el "problema de la taza de té" en la generación de imágenes de IA revela las limitaciones de los modelos de IA en el manejo de conceptos sutiles y también proporciona una referencia valiosa para la dirección futura del desarrollo de la tecnología de IA. El método MoCE propuesto por el equipo de investigación y la reflexión sobre los indicadores de evaluación existentes llevarán la tecnología de generación de imágenes de IA al siguiente nivel.