近年來,AI繪畫技術日新月異,但仍存在一些看似簡單的場景難以完美呈現。上海交通大學的研究團隊發現,AI在生成「茶杯中的冰可樂」這一場景時,屢屢失敗,引發了學術界對文本圖像不對齊問題的關注。該團隊深入研究這一“茶杯難題”,並提出了一種名為Mixture of Concept Experts (MoCE) 的新方法,有效解決了AI在圖像生成中存在的隱藏概念錯配問題。
在人工智慧領域,AI畫家的能力一直在不斷突破和進步。然而,即使是最先進的AI影像生成模型,也可能在某些看似簡單的任務上遇到難題。最近,上海交通大學博士研究生趙峻圖及其團隊在研究中發現,AI在生成「茶杯中的冰可樂」這一場景時,表現出了意料之外的困難。
這一現象引發了學術界的關注,被稱為文字圖像不對齊問題(text-image misalignment)。在2023年10月,當AI圖像生成模型剛剛興起時,趙峻圖及其團隊進行了嘗試,發現AI畫家在構建這一場景時,往往會畫出一個裝滿冰可樂的透明玻璃杯,而非茶杯。即使在2024年7月使用最先進的模型進行嘗試,結果仍然不盡人意。
為了深入探索這個問題,上海交通大學王德泉教授的課題組在即將發表的論文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中,將這一問題歸類為包含隱藏變數的不對齊問題(Latent Concept Misalignment,簡稱LC-Mis)。他們設計了一個基於大語言模型(LLMs)的系統,利用LLMs蘊含的人類思維來幫助快速收集存在類似問題的概念對。
研究團隊提出了一種名為Mixture of Concept Experts (MoCE) 的方法,將順序作畫的規律融入到diffusion models 的多步驟採樣過程中,成功地將消失的茶杯找了回來。
它將整個採樣過程分為兩個階段:第一階段只提供容易被忽略的概念,第二階段再使用完整的文字提示。透過這種方法,MoCE在生成圖像時能夠更精確地控製文字和圖像之間的對齊。
MoCE方法顯著降低了第5級LC-Mis 概念對的佔比,甚至在一定程度上超越了需要大量資料標註成本的Dall・E3(2023年10月版本)。
此外,研究團隊也發現,現有的自動化評估指標在面對這類新問題時有明顯缺陷。例如,一些評價指標對茶杯中的冰可樂給予了較低的評分,而對透明玻璃杯中的冰可樂卻給予了較高的評分。這表明,即使是評估AI表現的工具本身,也可能存在偏見和限制。
研究者們計劃在未來的工作中探索更複雜的LC-Mis場景,並開發可學習的搜尋演算法來減少迭代次數。他們還計劃擴大資料集中使用的模型類型、模型版本和採樣器類型,並持續迭代資料集收集演算法,以增強和擴大資料集。
這項研究不僅為理解AI在影像生成的限制提供了新的視角,也為改進AI的影像生成能力提供了新的想法和方法。隨著科技的不斷進步,我們期待AI在理解和再現人類創造力方面取得更大的突破。
專案網址:https://lcmis.github.io/
論文:https://arxiv.org/pdf/2408.00230
這項關於AI影像生成中「茶杯難題」的研究,揭示了AI模型在處理細微概念上的局限性,也為未來AI技術發展方向提供了寶貴的參考。 研究團隊提出的MoCE方法以及對現有評估指標的反思,都將推動AI影像生成技術更上一層樓。