In den letzten Jahren hat sich die KI-Maltechnik rasant weiterentwickelt, dennoch gibt es immer noch einige scheinbar einfache Szenen, die sich nur schwer perfekt darstellen lassen. Ein Forschungsteam der Shanghai Jiao Tong University stellte fest, dass es der KI wiederholt nicht gelang, die Szene „Eis-Cola in einer Teetasse“ zu erzeugen, was die akademische Aufmerksamkeit auf das Problem der Fehlausrichtung von Text und Bild lenkte. Das Team befasste sich intensiv mit diesem „Teetassenproblem“ und schlug eine neue Methode namens Mixture of Concept Experts (MoCE) vor, die das versteckte Problem der Konzeptinkongruenz bei der KI-Bildgenerierung effektiv löst.
Im Bereich der künstlichen Intelligenz haben die Fähigkeiten von KI-Malern ständig Durchbrüche und Verbesserungen erzielt. Allerdings können selbst die fortschrittlichsten KI-Modelle zur Bilderzeugung bei bestimmten scheinbar einfachen Aufgaben Probleme haben. Kürzlich entdeckten Zhao Juntu, Doktorand an der Shanghai Jiao Tong University, und sein Team bei ihrer Forschung, dass die KI unerwartete Schwierigkeiten bei der Generierung der Szene „Cola-Eis in einer Teetasse“ zeigte.
Dieses Phänomen hat die Aufmerksamkeit akademischer Kreise auf sich gezogen und wird als Text-Bild-Fehlausrichtung bezeichnet. Im Oktober 2023, als das KI-Bilderzeugungsmodell gerade erst aufkam, versuchten Zhao Juntu und sein Team es und stellten fest, dass KI-Maler beim Aufbau dieser Szene oft ein transparentes Glas mit eisgekühlter Cola anstelle einer Teetasse zeichneten. Auch beim Versuch im Juli 2024 mit modernsten Modellen waren die Ergebnisse noch unbefriedigend.
Um dieses Problem eingehend zu untersuchen, klassifiziert die Forschungsgruppe von Professor Wang Dequan von der Shanghai Jiao Tong University dieses Problem in der kommenden Arbeit „Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models“ als versteckte Variablen Problem (Latent Concept Misalignment, bezeichnet als LC-Mis). Sie entwarfen ein System, das auf großen Sprachmodellen (LLMs) basiert, um das in LLMs enthaltene menschliche Denken zu nutzen und dabei zu helfen, schnell Konzeptpaare mit ähnlichen Problemen zu sammeln.
Das Forschungsteam schlug eine Methode namens Mixture of Concept Experts (MoCE) vor, die die Regeln des sequentiellen Malens in den mehrstufigen Sampling-Prozess von Diffusionsmodellen integriert, und konnte die fehlende Teetasse erfolgreich wiederherstellen.
Es unterteilt den gesamten Sampling-Prozess in zwei Phasen: In der ersten Phase werden nur leicht zu übersehende Konzepte bereitgestellt, und in der zweiten Phase werden vollständige Textaufforderungen verwendet. Mit diesem Ansatz ist MoCE in der Lage, die Ausrichtung zwischen Text und Bildern bei der Bildgenerierung genauer zu steuern.
Die MoCE-Methode reduziert den Anteil der LC-Mis-Konzeptpaare der Stufe 5 erheblich und übertrifft sogar Dall・E3 (Version Oktober 2023), was bis zu einem gewissen Grad hohe Datenannotationskosten erfordert.
Darüber hinaus stellte das Forschungsteam fest, dass bestehende automatisierte Bewertungsindikatoren bei der Bewältigung neuer Probleme dieser Art offensichtliche Mängel aufweisen. Einige Bewertungsindikatoren geben beispielsweise einer eisgekühlten Cola in einer Teetasse eine niedrigere Punktzahl, einer eisgekühlten Cola in einem klaren Glas jedoch eine höhere Punktzahl. Dies deutet darauf hin, dass selbst die Tools zur Bewertung der KI-Leistung Vorurteile und Einschränkungen aufweisen können.
Die Forscher planen, in zukünftigen Arbeiten komplexere LC-Mis-Szenarien zu untersuchen und lernbare Suchalgorithmen zu entwickeln, um die Anzahl der Iterationen zu reduzieren. Sie planen außerdem, die im Datensatz verwendeten Modelltypen, Modellversionen und Sampler-Typen zu erweitern und den Datensatzerfassungsalgorithmus weiter zu iterieren, um den Datensatz zu verbessern und zu erweitern.
Diese Forschung bietet nicht nur eine neue Perspektive für das Verständnis der Grenzen der KI bei der Bilderzeugung, sondern liefert auch neue Ideen und Methoden zur Verbesserung der Bilderzeugungsfähigkeiten der KI. Da die Technologie weiter voranschreitet, gehen wir davon aus, dass die KI größere Durchbrüche beim Verständnis und der Reproduktion menschlicher Kreativität erzielen wird.
Projektadresse: https://lcmis.github.io/
Papier: https://arxiv.org/pdf/2408.00230
Diese Studie zum „Teetassenproblem“ bei der KI-Bilderzeugung zeigt die Grenzen von KI-Modellen bei der Handhabung subtiler Konzepte auf und liefert außerdem wertvolle Hinweise für die zukünftige Entwicklungsrichtung der KI-Technologie. Die vom Forschungsteam vorgeschlagene MoCE-Methode und die Reflexion bestehender Bewertungsindikatoren werden die KI-Bilderzeugungstechnologie auf die nächste Stufe heben.