近年、AIによる絵画技術は急速に進歩していますが、一見シンプルなシーンでも完璧に表現するのは難しいものがあります。上海交通大学の研究チームは、AI が「ティーカップに入ったアイスコーラ」のシーンの生成に繰り返し失敗していることを発見し、これがテキストと画像の位置ずれの問題について学術的な注目を集めるきっかけとなった。研究チームはこの「ティーカップ問題」を掘り下げ、AI画像生成における隠れたコンセプトの不一致問題を効果的に解決するMixture of Concept Experts(MoCE)と呼ばれる新しい手法を提案した。
人工知能の分野では、AI ペインターの機能は常に画期的な進歩と改善を続けています。ただし、最も高度な AI 画像生成モデルであっても、一見単純な特定のタスクでは困難を伴う場合があります。最近、上海交通大学の博士課程候補者、Zhao Juntu氏と彼のチームは、AIが「ティーカップに入ったアイスコーラ」のシーンを生成する際に予想外の困難を示したことを研究で発見した。
この現象は学界の注目を集めており、テキストと画像の位置ずれと呼ばれています。 2023年10月、AI画像生成モデルが登場したばかりの頃、Zhao Juntuと彼のチームはそれを試したところ、AI画家がこのシーンを構築する際、ティーカップの代わりに氷を入れたコーラで満たされた透明なグラスを描くことが多かったことがわかりました。 2024 年 7 月に最先端のモデルを使用して試したときでも、結果は依然として満足のいくものではありませんでした。
この問題を深く調査するために、上海交通大学のWang Dequan教授の研究グループは、次の論文「Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models」でこの問題を隠れた変数が含まれる問題として分類しています。問題 (潜在的な概念のずれ、LC-Mis と呼ばれる)。彼らは、大規模言語モデル (LLM) に含まれる人間の思考を利用して、同様の問題を持つ概念ペアを迅速に収集できるようにするシステムを設計しました。
研究チームは、拡散モデルの複数段階のサンプリングプロセスに連続ペイントのルールを統合する「Mixture of Concept Experts(MoCE)」と呼ばれる手法を提案し、紛失したティーカップの回収に成功した。
サンプリング プロセス全体を 2 つの段階に分割します。第 1 段階では見落とされやすい概念のみを提供し、第 2 段階では完全なテキスト プロンプトを使用します。このアプローチにより、MoCE は画像生成時にテキストと画像間の位置合わせをより正確に制御できるようになります。
MoCE方式は、レベル5のLC-Mis概念ペアの割合を大幅に削減し、多額のデータアノテーションコストがかかるDall・E3(2023年10月版)をある程度上回る。
さらに、研究チームは、この種の新たな問題に直面した場合、既存の自動評価指標には明らかな欠陥があることも発見しました。たとえば、評価指標によっては、ティーカップに入ったアイスコーラには低いスコアが与えられますが、透明なグラスに入ったアイスコーラには高いスコアが与えられます。これは、AI のパフォーマンスを評価するツール自体にもバイアスや制限がある可能性があることを示唆しています。
研究者らは、今後の研究でより複雑な LC-Mis シナリオを調査し、反復回数を減らすための学習可能な検索アルゴリズムを開発する予定です。また、データセットで使用されるモデルの種類、モデル バージョン、サンプラー タイプを拡張し、データセット収集アルゴリズムを反復してデータセットを強化および拡張することも計画しています。
この研究は、画像生成における AI の限界を理解するための新しい視点を提供するだけでなく、AI の画像生成能力を向上させるための新しいアイデアと方法も提供します。テクノロジーが進歩し続けるにつれて、AI が人間の創造性を理解して再現する上で大きな進歩を遂げることが期待されています。
プロジェクトアドレス: https://lcmis.github.io/
論文: https://arxiv.org/pdf/2408.00230
AI画像生成における「ティーカップ問題」に関するこの研究は、微妙な概念を扱う際のAIモデルの限界を明らかにするとともに、AI技術の将来の開発方向に貴重な参考資料を提供する。 研究チームが提案するMoCE手法と既存の評価指標の反映は、AI画像生成技術を次のレベルに押し上げるだろう。