Downcodes の編集者は、Meissonic と呼ばれるオープンソースの AI 画像生成モデルが登場しました。これは、AI 画像生成の分野では軽量の巨人と言えます。これは、研究開発チーム (Alibaba、Skywork AI、および複数の大学の研究者) が採用した独自のコンバーター アーキテクチャと新しいトレーニング方法によるものです。 Meissonic は通常のゲーム用 PC 上で実行できるだけでなく、将来的には携帯電話上でローカライズされたテキストから画像へのアプリケーションを実装することも期待されており、これにより AI 画像生成の敷居が大幅に下がります。
最近、科学研究チームはMeissonicと呼ばれるオープンソースのAI画像生成モデルを共同で立ち上げた。驚くべきことに、このモデルはわずか 10 億のパラメータを使用して高品質の画像を生成できます。このコンパクトな設計により、Meissonic はモバイル デバイス上でテキストから画像へのアプリケーションをローカライズできる可能性をもたらします。
このテクノロジーの研究開発チームには、アリババ、スカイワーク AI、複数の大学の研究者が含まれています。彼らは、独自のコンバータ アーキテクチャと新しいトレーニング方法を使用して、Meissonic を通常のゲーム PC、さらには将来的には携帯電話でも実行できるようにしました。
Meissonic のトレーニング方法では、「マスクされた画像モデリング」と呼ばれる技術が使用されています。これは、トレーニング プロセス中に画像の一部が非表示になることを意味します。モデルは、可視領域とテキストの説明に基づいて欠落部分を再構築する方法を学習します。このアプローチは、モデルが画像要素とテキストの関係を理解するのに役立ちます。
Meissonic のアーキテクチャにより、リアルなシーンでも、様式化されたテキスト、絵文字、漫画のステッカーでも、1024x1024 ピクセルの高解像度画像を生成できます。
画像を徐々に生成する従来の自己回帰モデルとは異なり、Meissonic は並列反復最適化を通じてすべての画像情報を同時に予測し、デコード手順を大幅に削減し、時間を約 99% 短縮し、画像生成速度を大幅に向上させます。
モデルを構築する過程で、研究者たちは次の 4 つのステップを実行しました。
まず、2 億枚の 256x256 ピクセルの画像を使用してモデルに基本概念を教え、次に 1,000 万枚の厳密に選別された画像とテキストのペアを使用して、テキスト理解機能を向上させました。その後、特別な圧縮レイヤーを追加することで、モデルは出力できるようになりました。 1024x1024 ピクセルごとの画像。最後に、人間の好みに関するデータを組み込んだ微調整を実行して、モデルのパフォーマンスを向上させました。
興味深いことに、Meissonic はパラメータの数が少ないにもかかわらず、複数のベンチマークで SDXL や DeepFloyd-XL などのいくつかの大型モデルを上回り、28.83 という高い「人間優先スコア」を達成しました。さらに、Meissonic は追加のトレーニングなしで画像のパッチングと拡張ができるため、ユーザーは不足している画像部分を簡単に追加したり、既存の画像を創造的に強化したりできます。
研究チームは、この方法により、カスタマイズされた AI 画像ジェネレーターの迅速かつ低コストの開発が促進される可能性があり、モバイル デバイス上のテキストから画像へのアプリケーションの開発も促進されると考えられています。興味のある友人は、Hugging Face でデモ バージョンを見つけ、GitHub でモデルのコードを表示できます。これは、通常の 8 GB のビデオ メモリを備えたコンシューマ GPU で簡単に実行できます。
デモ:https://huggingface.co/spaces/MeissonFlow/meissonic
プロジェクト: https://github.com/viiika/Meissonic
ハイライト:
Meissonic は、わずか 10 億のパラメータで高品質の画像を生成できるオープンソース AI モデルで、通常のゲーム PC や将来のモバイル デバイスでの使用に適しています。
Meissonic は、並列反復最適化トレーニング手法を使用して、従来のモデルより 99% 高速に画像を生成できます。
? パラメータ サイズが小さいにもかかわらず、Meissonic は複数のテストで大きなモデルよりも優れたパフォーマンスを発揮し、トレーニング不要の画像修復と拡張を可能にします。
全体として、Meissonic の登場は、AI 画像生成の分野に新たな可能性をもたらしました。その軽量設計と効率的なパフォーマンスは期待に値します。 Downcodes の編集者は、Hugging Face と GitHub にアクセスして、この強力な AI モデルを体験し、探索することをすべての人に推奨しています。