Ces dernières années, la technologie de peinture par IA a progressé rapidement, mais certaines scènes apparemment simples sont encore difficiles à présenter parfaitement. Une équipe de recherche de l'Université Jiao Tong de Shanghai a découvert que l'IA échouait à plusieurs reprises à générer la scène du « Coca-Cola glacé dans une tasse de thé », ce qui a attiré l'attention des universitaires sur le problème du désalignement texte-image. L'équipe s'est penchée sur ce « problème de la tasse de thé » et a proposé une nouvelle méthode appelée Mixture of Concept Experts (MoCE), qui résout efficacement le problème caché d'inadéquation des concepts dans la génération d'images IA.
Dans le domaine de l’intelligence artificielle, les capacités des peintres IA ont constamment fait des percées et des améliorations. Cependant, même les modèles de génération d’images IA les plus avancés peuvent avoir du mal à réaliser certaines tâches apparemment simples. Récemment, Zhao Juntu, doctorant à l'Université Jiao Tong de Shanghai, et son équipe ont découvert dans leurs recherches que l'IA présentait des difficultés inattendues lors de la génération de la scène de « Ice Coke in a Tea Cup ».
Ce phénomène a attiré l’attention des milieux universitaires et est appelé désalignement texte-image. En octobre 2023, alors que le modèle de génération d'images IA venait tout juste d'émerger, Zhao Juntu et son équipe l'ont essayé et ont découvert que lorsque les peintres IA construisaient cette scène, ils dessinaient souvent un verre transparent rempli de Coca glacé au lieu d'une tasse de thé. Même testé en juillet 2024 sur des modèles de pointe, les résultats restaient insatisfaisants.
Afin d'explorer cette question en profondeur, le groupe de recherche du professeur Wang Dequan de l'Université Jiao Tong de Shanghai classe ce problème comme contenant des variables cachées dans le prochain article "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models". problème (Latent Concept Misalignment, appelé LC-Mis). Ils ont conçu un système basé sur de grands modèles de langage (LLM) pour utiliser la pensée humaine contenue dans les LLM afin de collecter rapidement des paires de concepts présentant des problèmes similaires.
L'équipe de recherche a proposé une méthode appelée Mixture of Concept Experts (MoCE), qui intègre les règles de la peinture séquentielle dans le processus d'échantillonnage en plusieurs étapes des modèles de diffusion, et a réussi à récupérer la tasse de thé manquante.
Il divise l'ensemble du processus d'échantillonnage en deux étapes : la première étape ne fournit que des concepts facilement négligés et la deuxième étape utilise des invites textuelles complètes. Grâce à cette approche, MoCE est capable de contrôler plus précisément l'alignement entre le texte et les images lors de la génération d'images.
La méthode MoCE réduit considérablement la proportion de paires de concepts LC-Mis de niveau 5, et dépasse même Dall・E3 (version d'octobre 2023) qui nécessite dans une certaine mesure une grande quantité de coûts d'annotation de données.
En outre, l’équipe de recherche a également constaté que les indicateurs d’évaluation automatisés existants présentent des défauts évidents face à ce type de nouveaux problèmes. Par exemple, certains indicateurs d'évaluation attribuent une note inférieure au Coca glacé dans une tasse de thé, mais donnent une note plus élevée au Coca glacé dans un verre transparent. Cela suggère que même les outils eux-mêmes permettant d’évaluer les performances de l’IA peuvent présenter des biais et des limites.
Les chercheurs prévoient d’explorer des scénarios LC-Mis plus complexes dans leurs travaux futurs et de développer des algorithmes de recherche apprenables pour réduire le nombre d’itérations. Ils prévoient également d'étendre les types de modèles, les versions de modèles et les types d'échantillonneurs utilisés dans l'ensemble de données, et de continuer à itérer sur l'algorithme de collecte de l'ensemble de données pour améliorer et étendre l'ensemble de données.
Cette recherche offre non seulement une nouvelle perspective pour comprendre les limites de l’IA dans la génération d’images, mais fournit également de nouvelles idées et méthodes pour améliorer les capacités de génération d’images de l’IA. À mesure que la technologie continue de progresser, nous nous attendons à ce que l’IA fasse de plus grandes percées dans la compréhension et la reproduction de la créativité humaine.
Adresse du projet : https://lcmis.github.io/
Article : https://arxiv.org/pdf/2408.00230
Cette étude sur le « problème de la tasse de thé » dans la génération d'images d'IA révèle les limites des modèles d'IA dans la gestion de concepts subtils et fournit également une référence précieuse pour l'orientation future du développement de la technologie d'IA. La méthode MoCE proposée par l’équipe de recherche et la réflexion sur les indicateurs d’évaluation existants pousseront la technologie de génération d’images IA à un niveau supérieur.