Downcodes の編集者は、Google DeepMind とマサチューセッツ工科大学 (MIT) がテキストから画像への生成の分野で大きな進歩を達成したことを知りました。彼らが開発した新しい自己回帰モデル Fluid は、105 億のパラメータスケールで優れたパフォーマンスを示し、画像生成分野における自己回帰モデルに対する業界の理解を覆しました。この研究の核心は、連続単語要素とランダムな生成順序の革新的な導入にあり、これによりモデルのパフォーマンスとスケーラビリティが大幅に向上し、画像生成技術に新しい方向性をもたらします。
Google DeepMind とマサチューセッツ工科大学 (MIT) は最近、主要な研究結果を発表しました。研究チームが開発した新しい自己回帰モデル Fluid は、テキストから画像への生成の分野で画期的な進歩を遂げ、パラメータ数 105 億まで拡張された後、優れたパフォーマンスを発揮しました。
この研究は、業界の一般的な認識を覆すものです。これまで、自己回帰モデルは言語処理の分野で主流を占めていましたが、画像生成においては Stable Diffusion や Google Imagen3 などの拡散モデルより劣ると考えられていました。研究者らは、2 つの重要な設計要素を革新的に導入することにより、自己回帰モデルのパフォーマンスとスケーラビリティを大幅に向上させました。それは、離散語要素の代わりに連続語要素を使用すること、および固定順序ではなくランダムに生成された順序を導入することです。
画像情報処理の観点からは、連続した単語要素には明らかな利点があります。従来の離散トークンでは、限られた語彙で画像領域をコードにエンコードしますが、このアプローチでは必然的に情報損失が発生し、大きなモデルであっても対称的な目などの詳細な特徴を正確に生成することは困難です。連続した単語要素により、より正確な情報が保存され、画像再構成の品質が大幅に向上します。
研究チームは画像生成シーケンスも刷新した。従来の自己回帰モデルは通常、左から右、上から下の固定順序で画像を生成します。研究者らはランダム化された逐次アプローチを試み、モデルが各ステップで任意の位置にある複数のピクセルを予測できるようにしました。この方法は、画像全体の構造をよく把握する必要があるタスクでうまく機能し、テキストと生成された画像の一致を測定する GenEval ベンチマーク テストで大きな利点を達成しました。
流体モデルの実際のパフォーマンスは、研究の価値を裏付けます。 105 億パラメータに拡張した後、Fluid は複数の重要なベンチマークで既存のモデルを上回りました。わずか 3 億 6,900 万のパラメーターを備えた小規模な流体モデルが、MS-COCO データ セット上の 200 億のパラメーターを備えた Parti モデルの FID スコア (7.23) に達したことは注目に値します。
この研究結果は、Fluid のような自己回帰モデルが拡散モデルの強力な代替手段となる可能性が高いことを示しています。複数の順方向パスと逆方向パスを必要とする拡散モデルと比較して、Fluid は画像を生成するのに 1 回のパスのみを必要とします。この効率上の利点は、モデルがさらに拡張されるにつれてより明らかになります。
この研究は、テキストから画像への生成の分野に新たな可能性をもたらし、Fluid モデルの出現は、画像生成の分野における自己回帰モデルの台頭も示しています。将来的には、人工知能画像生成技術の進歩をさらに促進するために、流体モデルに基づくさらなるアプリケーションと改善が期待できます。 Downcodes の編集者は、この分野の最新の開発に今後も注目し、よりエキサイティングなコンテンツを読者に提供していきます。