北京人工知能研究所の研究チームは、従来の画像生成ツールの単一機能の制限を打ち破る新しい画像生成モデル OmniGen をリリースしました。 OmniGen は、Stable Diffusion などのモデルとは異なり、テキストから画像の生成、画像編集などの複数の機能を統一されたフレームワークの下で統合しており、「オールラウンダー」となっています。 Downcodes の編集者が、OmniGen のパワーとその応用の展望について詳しく説明します。
最近、北京人工知能研究所の研究チームは、OmniGen と呼ばれる新しい画像生成モデルを発表しました。
万能画像生成・編集プレーヤー
Stable Diffusion などの以前の画像生成ツールと比較して、OmniGen の最大のハイライトは、単一のタスクだけに焦点を当てているのではなく、複数の機能を備えていることです。
テキストから画像生成、画像編集まで、さまざまな画像生成作業を統一フレームワークで実行できるオールラウンダーと言えます。
つまり、ユーザーは簡単なプロンプトを入力するだけで画像の生成と細かい編集を制御でき、画像の詳細を調整するために ControlNet や IP アダプターなどのプラグインを使用する必要がなくなりました。
ここで AIbase は、昔ながらのカメラでクリエイティブな写真を撮影するための詳細なエフェクト プロンプト ワードを提供することに基づいています。生成される全体的なエフェクトは詳細が満載で、その効果は次のとおりです。
複数のテストにわたって、OmniGen は印象的なパフォーマンスを示し、テキストから画像への生成において市場で最も先進的なモデルと同等のパフォーマンスを示しました。 GenEval ベンチマークでは、OmniGen がトレーニングに使用した画像は 1 億枚のみでしたが、SD3 は 10 億枚以上の画像を使用しました。
画像編集機能も同様に優れており、ソース画像と編集指示を正確に制御できます。たとえば、EMU-Edit テスト セットでは、InstructPix2Pix などのよく知られたモデルを上回り、現在の最先端の EMU-Edit モデルにさえ匹敵します。
主題主導の生成というタスクにおいて、OmniGen は並外れたパーソナライゼーション機能を実証しており、アート制作や広告デザインなどの多くの分野に適しています。
トライアルアドレス:https://huggingface.co/spaces/Shitao/OmniGen
論文: https://arxiv.org/html/2409.11340v1
OmniGen は、強力な機能と効率的なパフォーマンスにより、画像生成の分野に新たなブレークスルーをもたらします。シンプルで使いやすい操作方法により、画像生成の敷居を下げ、より多くのユーザーに便利なクリエイティブツールを提供します。 OmniGen は将来的に応用範囲が広がり、人工知能画像生成技術のさらなる発展を促進することが期待されます。