画像生成の分野では大きな進歩がありましたが、既存のモデルの制限により、言語ビジョンモデルの統一が妨げられています。この記事では、Meissonicと呼ばれる新しいテキストから画像モデルを紹介します。これは、非自動化されたマスクモデリング(MIM)テクノロジーを使用して、最先端の拡散モデル(SDXLなど)を達成します。かなりの画像生成品質。 Meissonicは、建築革新、位置コーディング戦略、最適化されたサンプリング条件により、MIMのパフォーマンスと効率を大幅に向上させ、消費者GPUで1024×1024解像度画像の生成を達成します。
Meissonicの中心には、さまざまな建築革新、高度な位置コーディング戦略、およびMIMのパフォーマンスと効率を大幅に改善する最適化されたサンプリング条件があります。さらに、Meissonicは高品質のトレーニングデータも利用し、人間の好みのスコアに基づいてマイクロコンディションを統合し、特徴の圧縮層を採用して画像の忠実度と解像度をさらに強化します。
SDXLやDeepfloyd-XLなどの大規模な拡散モデルとは異なり、Meissonicには10億パラメーターしかありませんが、1024×1024の解像度で高品質の画像を生成でき、追加のモデルなしで8GBのビデオメモリを持つ消費者級GPUで実行できます。最適化。さらに、Meissonicは、拡散モデルでモデルの微調整またはノイズオフセット調整を必要とすることが多い、固体の背景を持つ画像を簡単に生成できます。
効率的なトレーニングを実現するために、Meissonicのトレーニングプロセスは、慎重に設計された4つの段階に分類されます。
最初の段階:大規模なデータからの基本概念を理解します。 Meissonicは、フィルタリングされたLaion-2Bデータセットを使用して、256×256の解像度でトレーニングして基本概念を学習します。
ステージ2:テキストと画像を長いプロンプトで調整します。 トレーニング解像度は512×512に改善され、高品質の合成画像テキストペアと内部データセットが使用され、長い記述的キューを理解するモデルの能力が向上します。
ステージ3:高解像度の生成を達成するためのマスター機能圧縮。 特徴圧縮層を導入することにより、Meissonicは512×512から1024×1024の生成にシームレスに移行し、高品質の高解像度画像テキストの選択したペアで訓練できます。
ステージ4:高解像度の審美的な画像生成を最適化します。 この段階では、モデルは微調整に少ない学習レートを使用し、マイクロコンディションとして人間の好みスコアを追加して、高品質の画像を生成するモデルのパフォーマンスを強化します。
Meissonicは、HPS、MPS、遺伝子ベンチマーク、GPT4O評価など、さまざまな定量的および定性的メトリックを通じて優れたパフォーマンスと効率性を実証しています。 Dall-E2およびSDXLと比較して、Meissonicは人間のパフォーマンスとテキストの両方の整合性の両方で競争力のあるパフォーマンスを達成し、その効率も示しています。
さらに、Meissonicはゼロサンプルの画像から画像への編集でうまく機能しました。 EMU-EDITデータセットでは、Meissonicは、バックグラウンドの変更、画像コンテンツの変更、スタイルの変更、オブジェクトの削除、オブジェクトの追加、ローカル変更、色/テクスチャの変更など、7つの異なる操作で主要な結果を達成しました。画像編集固有のデータまたは命令セットをトレーニングまたは微調整する。
プロジェクトアドレス:https://github.com/viiika/meissonic
紙の住所:https://arxiv.org/pdf/2410.08261
要約すると、Meissonicモデルは効率と画像生成の品質に大きなブレークスルーをもたらし、将来の言語ビジョンモデルの開発に新しい方向性を提供しています。その軽量機能により、消費者ハードウェアで実行され、幅広いアプリケーションの見通しを備えたゼロサンプル画像編集でその強力な機能を実証できます。