NVIDIA の最新のオープンソース画像生成モデルである Sana は、そのコンパクトなサイズと強力なパフォーマンスで AI 画像生成の分野に波を巻き起こしました。 Sana には 6,000 万のパラメータしかありませんが、最大 4096 × 4096 ピクセルの高解像度画像を生成でき、16 GB グラフィックス カードで 1 秒未満の生成速度を達成できます。これは、革新的な深層圧縮オートエンコーダーと線形拡散トランスフォーマー、およびテキスト エンコーディングと推論戦略の最適化によるものです。そのパフォーマンスは、同等のモデルの中でも、より大きなパラメータを持つモデルと比較しても際立っています。
最近、NVIDIA は Sana と呼ばれる画像生成モデルをオープンソース化しました。このモデルにはパラメーターが 6,000 万しかなく、動作のしきい値が大幅に下がります。
Sana は 4096×4096 の解像度の画像を生成でき、16 GB のグラフィックス カードで 1024×1024 の解像度の画像を生成できることがわかります。この速度は、類似モデルの中でも傑出しています。
研究チームは、従来のオートエンコーダと比較して、Sana は最大 32 倍の圧縮率を備え、潜在的なラベルの数を大幅に削減し、超高解像度画像の生成に役立ちます。重要な。第二に、Sana は線形拡散変換器 (DiT) を使用して従来の 2 次アテンションを線形アテンションに置き換え、それによって複雑さを O (N) に削減し、3×3 の深度コンボリューションを通じてローカル情報を向上させます。この設計により、4K 画像を生成する際の Sana の遅延は 1.7 倍に増加します。
テキスト エンコーディングに関して、Sana は従来の T5 モデルの代わりに、小型デコーダー固有の大規模言語モデルである Gemma を選択しました。 Gemma は、複雑な命令の理解と実行において優れたパフォーマンスを発揮し、画像とテキストを配置する能力を強化します。さらに、Sana はトレーニングと推論戦略を最適化し、CLIP スコアの高い説明を自動的にラベル付けして選択することで、テキストと画像の一貫性を向上させます。新しく提案された Flow-DPM-Solver アルゴリズムは、推論ステップを 14 ~ 20 ステップに削減し、パフォーマンスを大幅に向上させます。
全体的なパフォーマンスの点で、Sana は複数の高度なテキストから画像への拡散モデルで優れたパフォーマンスを発揮します。 512×512 の解像度では、Sana-0.6 は PixArt-Σ の 5 倍のスループットを備え、画像生成品質の点で優れたパフォーマンスを発揮します。解像度 1024×1024 の Sana-0.6B は、パラメータ数が 3 億未満のモデルでも大きな利点があります。
Sana-0.6B は強力なパフォーマンスを備えているだけでなく、16 GB ノートブック GPU で画像を迅速に生成できるため、コンテンツ クリエイターがクリエイティブな目標を効率的に達成できるようになります。 Sana0.6Bは性能的にもFlux-12Bに匹敵すると言われていますが、パラメータ数は1/20ですが、速度は100倍も高速です。
興味深いことに、Sana のプロンプトワードは英語、中国語、絵文字をサポートしています。ユーザーは漢詩を入力し、それに関連した芸術的な画像を生成できます。さらに、Sana には一定のセキュリティも備えており、ユーザーが不適切な単語を入力すると、システムが自動的に単語を赤いハートのパターンに置き換えて、不適切なコンテンツの生成を回避します。
たとえば、AIbase が「猫が草で遊んでいる、星」というプロンプト単語を入力すると、生成速度が非常に速く、効果も非常に優れています。
別の例として、「かわいいのが食べています、水墨画風」というプロンプト ワードが与えられると、モデルが絵文字を正確に識別できることがわかります。
Sana が ComfyUI の公式サポートを受けており、Lora トレーニング ツールが装備されていることは言及する価値があります。これにより、ユーザーはさらに便利に使用できるようになり、興味のある友人が実際に試してみることもできます。
プロジェクト入口:https://nv-sana.mit.edu/
ハイライト:
** 効率的な生成 **: Sana は、通常のノートブック GPU での使用に適した最大 4096 × 4096 の解像度の高品質の画像を迅速に生成できます。
**革新的なデザイン**: 深圧縮オートエンコーダーと線形拡散トランスにより、生成速度と品質が大幅に向上します。
**優れたパフォーマンス**: Sana は複数のテストで良好なパフォーマンスを示し、他の高度なモデルよりも大幅に高いスループットを実現し、迅速なコンテンツ作成をサポートします。
全体として、Sana は効率的な生成速度、高品質の画像出力、便利な使用方法により、ユーザーに新しい AI 画像生成体験を提供しており、今後の発展に期待する価値があります。