高解像度でフォトリアリスティックな画像をテキストから画像に生成することは、コンピュータ ビジョンの分野では常に困難な問題でした。拡散モデルや変換自己回帰モデルなどの従来の生成方法は高品質の画像を生成できますが、コンピューティング リソースの大量の消費や詳細の損失などの問題に直面しています。 ByteDance が提案した新しいフレームワーク「Infinity」は、革新的なビットレベルのタグ付けと無限の語彙分類子により、生成効率と画像品質を大幅に向上させることを目的としています。
画像生成の分野では、高解像度でフォトリアリスティックな画像を作成する作業は、特にテキストから画像への合成プロセスにおいて、常に複数の課題に直面しています。従来の生成手法は主に拡散モデルと変換自己回帰 (VAR) フレームワークに依存しています。
これらのモデルは高品質の画像を生成できますが、大量のコンピューティング リソースを消費するため、リアルタイム アプリケーションには柔軟性がありません。同時に、VAR モデルは離散マーカーを処理するときに累積誤差が発生する傾向があり、その結果、生成された画像の詳細が失われ、画像のリアリズムに影響を及ぼします。
これらの欠点を克服するために、ByteDance の研究チームは、テキストから画像への合成の効率と品質を向上させるように設計された「Infinity」と呼ばれる新しいフレームワークを立ち上げました。
Infinity は、従来のインデックス レベルのタグの代わりにビット レベルのタグを導入することで、よりきめの細かい表現を実現します。これにより、量子化エラーが大幅に削減され、生成される画像のリアリズムが向上します。さらに、このフレームワークは Infinite Vocabulary Classifier (IVC) を使用してトークン語彙を 2^64 まで拡張し、メモリとコンピューティングの要件を大幅に削減します。
Infinity アーキテクチャは主に 3 つの部分で構成されます。1 つは計算オーバーヘッドのために画像の特徴をバイナリ タグに変換するビットレベルのマルチスケール量子化タガー、テキストのヒントと以前の出力の差に基づいて残差を予測するトランスフォーマー ベースの自己回帰モデルです。トレーニング プロセス中にランダムなビット 反転を導入して、エラーに対するモデルの堅牢性を向上させる自己修正メカニズム。研究チームは、LAION や OpenImages などの大規模なデータセットをトレーニングに使用し、画像解像度を 256×256 から 1024×102 まで段階的に高めることで大きな進歩を遂げました。
評価後、Infinity は主要な指標で優れたパフォーマンスを示し、GenEval スコアは 0.、Fréchet Inception Distance (FID) は 3.48 に減少し、生成速度と品質の向上が実証されました。 Infinity は 1024×1024 の高解像度画像を 0.8 秒で生成でき、その効率性と信頼性が実証されています。このシステムによって生成された画像は、視覚的にリアルで詳細が豊富であるだけでなく、複雑なテキスト指示にも正確に応答するため、人間の嗜好スコアが高くなります。
Infinity の発売は、高解像度のテキストから画像への合成における新たなベンチマークとなり、長年にわたるスケーラビリティと詳細品質の問題を革新的な設計で解決することで、生成 AI のさらなる開発を推進します。
論文: https://arxiv.org/abs/2412.04431
ハイライト:
? **革新的なフレームワーク Infinity:** Bytedance によって開始された Infinity フレームワークは、ビットレベルのトークン化と無制限の語彙分類子を通じて高解像度画像生成の効率を大幅に向上させます。
⚡ **優れたパフォーマンス:** Infinity は主要な評価指標において既存モデルを上回り、1024×1024 の高画質画像を 0.8 秒で生成できます。
?️ ** 本物の詳細と応答性: ** 生成された画像は視覚的にリアルであるだけでなく、複雑なテキスト プロンプトにも正確に応答し、高い人間の好みスコアを示します。
全体として、Infinity フレームワークは、高解像度のテキストから画像への生成のための効率的で高品質なソリューションを提供し、速度、画像品質、および複雑なテキスト命令への応答性において大幅な進歩を達成し、生成のための強力なプラットフォームを提供します。 AI の進歩は新たなマイルストーンを打ち立てました。