近年、AI画像生成技術は急速に進歩していますが、計算コストが高いため、その普及は限られています。この記事では、効率的な画像生成機能と低いランニングコストで際立っている、Sana と呼ばれる新しいテキストから画像へのフレームワークを紹介します。 Sana は、通常のラップトップ GPU で最大 4096 × 4096 の解像度の超高解像度画像を生成でき、既存のテクノロジーよりもはるかに高速です。このフレームワークの核となる革新は、深度圧縮オートエンコーダー、線形 DiT、デコーダー スタイルのテキスト エンコーダー、効率的なトレーニングとサンプリング戦略の組み合わせにあります。
AI 画像生成技術は急速に発展していますが、モデルのサイズはますます大きくなり、一般ユーザーにとってトレーニングと使用のコストは非常に高くなります。今回、「Sana」と呼ばれる新しいテキストから画像へのフレームワークが登場しました。これは、最大 4096 × 4096 の解像度の超高解像度画像を効率的に生成でき、非常に高速なので、GPU 上でも実行できます。ラップトップ。
Sana の主なデザインには次のものが含まれます。
高度な圧縮オートエンコーダー: 画像を 8 回しか圧縮しない従来のオートエンコーダーとは異なり、Sana で使用されるオートエンコーダーは画像を 32 回圧縮でき、潜在的なトークンの数を効果的に削減できます。これは、効率的なトレーニングと超高解像度画像の生成にとって非常に重要です。
Linear DiT:Sana は、DiT のすべての従来のアテンション メカニズムをリニア アテンションに置き換え、品質を犠牲にすることなく高解像度画像の処理効率を向上させます。線形アテンションにより、計算の複雑さが O(N²) から O(N) に軽減されます。さらに、Sana は Mix-FFN を使用して 3x3 深度畳み込みを MLP に統合し、トークンのローカル情報を集約し、位置エンコーディングを必要としなくなりました。
デコーダ スタイルのテキスト エンコーダ: Sana は、一般的に使用されている CLIP または T5 の代わりに、最新のデコーダ スタイルの小型 LLM (Gemma など) をテキスト エンコーダとして使用します。このアプローチにより、ユーザーの合図を理解し推論するモデルの能力が強化され、複雑な人間による指示と状況に応じた学習を通じて画像とテキストの位置合わせが向上します。
効率的なトレーニングとサンプリング戦略: Sana は、Flow-DPM-Solver を採用してサンプリング ステップを削減し、効率的なタイトル アノテーションと選択方法を使用してモデルの収束を加速します。 Sana-0.6B モデルは、Flux-12B などの大型拡散モデルに比べて 20 倍小さく、100 倍以上高速です。
Sana は、以下によって推論レイテンシを大幅に短縮するという点で革新的です。
アルゴリズムとシステムの協調最適化: 複数の最適化手法により、Sana は 4096x4096 画像の生成時間を 469 秒から 9.6 秒に短縮します。これは、現在の最新モデル Flux よりも 106 倍高速です。
高度な圧縮オートエンコーダー: Sana は AE-F32C32P1 構造を使用して画像を 32 回圧縮し、トークンの数を大幅に削減し、トレーニングと推論を高速化します。
リニア アテンション: リニア アテンションを使用して従来のセルフ アテンション メカニズムを置き換えることで、高解像度画像の処理効率が向上します。
Triton アクセラレーション: Triton を使用して線形注意モジュールの前方プロセスと後方プロセスのカーネルを融合し、トレーニングと推論をさらに加速します。
Flow-DPM-Solver: より良い生成結果を達成しながら、推論サンプリング ステップを 28 ~ 50 ステップから 14 ~ 20 ステップに削減します。
サナさんの演技は素晴らしいですね。解像度 1024x1024 では、Sana-0.6B モデルのパラメーターはわずか 5 億 9,000 万ですが、全体的なパフォーマンスは 0.64GenEval に達し、多くのより大きなモデルに匹敵します。さらに、Sana-0.6B は 16GB ラップトップ GPU に導入でき、1 秒未満で 1024×1024 解像度の画像を生成します。 4K 画像生成において、Sana-0.6B は最先端の方式 (FLUX) よりも 100 倍以上高速なスループットを実現します。 Sana は速度の飛躍的な進歩を達成するだけでなく、テキストのレンダリングやオブジェクトの詳細などの複雑なシーンでも、満足のいくパフォーマンスを発揮します。
さらに、Sana には強力なゼロサンプル言語移行機能もあります。英語のデータのみでトレーニングされた場合でも、Sana は中国語と絵文字の手がかりを理解し、対応する画像を生成できます。
Sana の登場により、高品質の画像生成の敷居が下がり、プロフェッショナルと一般ユーザーに強力なコンテンツ作成ツールが提供されます。 Sanaのコードとモデルは公開されます。
体験アドレス:https://nv-sana.mit.edu/
論文アドレス: https://arxiv.org/pdf/2410.10629
Github:https://github.com/NVlabs/Sana
全体として、Sana は効率的なアルゴリズムと最適化されたシステム設計により、画像生成の分野で画期的な進歩を遂げ、ユーザーに前例のない利便性と高品質の画像生成体験をもたらしました。そのオープンソース機能は、AI画像生成技術の発展にも大きく貢献しました。