Downcodes のエディターでは、わずか 10 億のパラメーターを備え、1024 × 1024 の高解像度画像を生成できるテキストから画像への生成モデルである Meissonic について学習します。安定拡散などのモデルの限界を打ち破り、非自己回帰マスク イメージ モデリング (MIM) テクノロジーを新しいレベルに引き上げ、そのパフォーマンスと効率は SDXL などのトップ拡散モデルに匹敵します。 Meissonic の革新性は、独自のアーキテクチャ設計、高度な位置エンコード戦略、最適化されたサンプリング条件にあり、追加の最適化を行わずに消費者グレードの GPU で実行できるようになります。さらに驚くべきことは、通常は拡散モデルで複雑な調整が必要な単色の背景を持つ画像を簡単に生成できることです。
Meissonic の中核は、一連のアーキテクチャの革新、高度な位置エンコード戦略、最適化されたサンプリング条件にあり、これらの改善により MIM のパフォーマンスと効率が大幅に向上します。さらに、Meissonic は高品質のトレーニング データを活用し、人間の好みのスコアに基づいたマイクロコンディショニングを統合し、特徴圧縮レイヤーを採用して画像の忠実性と解像度をさらに強化します。
SDXL や DeepFloyd-XL などの大規模な拡散モデルとは異なり、Meissonic には 10 億個のパラメータしかありませんが、1024×1024 の解像度で高品質の画像を生成でき、モデルを追加することなく、わずか 8GB のビデオ メモリを備えたコンシューマ グレードの GPU で実行できます。最適化。さらに、Meissonic は単色の背景を持つ画像を簡単に生成できますが、拡散モデルではモデルの微調整やノイズ オフセットの調整が必要になることがよくあります。
効率的なトレーニングを達成するために、Meissonic のトレーニング プロセスは慎重に設計された 4 つの段階に分かれています。
第 1 段階: 大量のデータから基本的な概念を理解します。 Meissonic は、フィルタリングされた LAION-2B データセットを使用して 256×256 解像度でトレーニングし、基本的な概念を学習します。
フェーズ 2: 長いチップを使用してテキストと画像を位置合わせします。 トレーニング解像度は 512×512 に増加し、高品質の合成画像とテキストのペアと内部データセットを使用して、長い説明的な手がかりを理解するモデルの能力が向上します。
ステージ 3: マスター特徴圧縮を行って、より高解像度の生成を実現します。 特徴圧縮レイヤーを導入することにより、Meissonic は 512×512 世代から 1024×1024 世代にシームレスに移行し、選択した高品質の高解像度画像とテキストのペアを使用してトレーニングできます。
ステージ 4: 高解像度の美しい画像の生成を最適化します。 この段階では、より小さい学習率を使用してモデルが微調整され、人間の嗜好スコアが微条件として追加されて、高品質の画像を生成するモデルのパフォーマンスが向上します。
Meissonic は、HPS、MPS、GenEval ベンチマーク、GPT4o 評価など、さまざまな定量的および定性的指標にわたって優れたパフォーマンスと効率を実証します。 DALL-E2 や SDXL と比較して、Meissonic は人間のパフォーマンスとテキストの配置の両方で競争力のあるパフォーマンスを達成すると同時に、その高い効率性を実証します。
さらに、Meissonic は、ゼロサンプルの画像から画像への編集にも優れています。 EMU-Edit データセット上で、Meissonic は背景の変更、画像コンテンツの変更、スタイルの変更、オブジェクトの削除、オブジェクトの追加、ローカルの変更、色/テクスチャの変更を含む 7 つの異なる操作で優れた結果を達成しました。これらの操作はすべてトレーニングや細かい操作を必要としません。 -画像編集固有のデータまたは命令セットの調整。
プロジェクトアドレス: https://github.com/viiika/Meissonic
論文アドレス: https://arxiv.org/pdf/2410.08261
Meissonic は、その効率性と高性能により、画像生成の分野に新たな可能性をもたらします。その軽量設計により、一般ユーザーが使いやすくなり、将来の研究の方向性に対する新しいアイデアも提供されます。興味のある友人は、プロジェクトのアドレスと論文のアドレスにアクセスして詳細を確認してください。