シンガポール国立大学の研究チームは、画像生成の柔軟性と効率を大幅に向上させる、OminiControl と呼ばれる新しい画像生成フレームワークを開発しました。画像調整と事前トレーニングされた拡散変換モデル (DiT) を巧みに組み合わせて、前例のない制御機能を実現し、複雑な被写体の統合も簡単に実現できます。 Downcodes のエディターを使用すると、OminiControl の独自性とそれが画像生成の分野にもたらす変化を深く理解できます。
簡単に言えば、素材画像を提供すれば、OminiControlを使用して素材画像のテーマを生成された画像に統合できます。たとえば、Downcodes の編集者は、左側の素材画像をアップロードし、「チップマンが診察室のテーブルの隣に配置され、テーブル上に聴診器が置かれています。」というプロンプト ワードを入力すると、生成されるエフェクトは比較的一般的です。次のように:
OminiControl の中核は、その「パラメータ再利用メカニズム」にあります。このメカニズムにより、DiT モデルは、より少ない追加パラメータで画像条件を効果的に処理できるようになります。これは、既存のメソッドと比較して、OminiControl が強力な機能を実現するために必要なパラメーターは 0.1% ~ 0.1% だけであることを意味します。さらに、被写体ベースの生成や、エッジや深度マップなどの空間位置合わせ条件の適用など、複数の画像調整タスクを均一に処理できます。この柔軟性は、トピック主導の生成タスクに特に役立ちます。
研究チームはまた、OminiControl が生成された画像をトレーニングすることでこれらの機能を実現しており、これはトピック駆動型の生成にとって特に重要であることも強調しました。広範な評価の結果、OminiControl は、トピック駆動型生成タスクと空間的に調整された条件付き生成タスクの両方において、既存の UNet モデルおよび DiT 適応モデルを大幅に上回りました。この研究結果はクリエイティブ分野に新たな可能性をもたらします。
より広範な研究をサポートするために、チームは Subjects200K と呼ばれるトレーニング データセットもリリースしました。これには 200,000 を超える同一性の一貫した画像が含まれており、効率的なデータ合成パイプラインを提供します。このデータセットは、研究者がトピックのコンセンサス生成タスクをさらに調査するのに役立つ貴重なリソースを提供します。
Omini の発売により、画像生成の効率と効果が向上するだけでなく、芸術的創作の可能性も広がります。
オンライン体験: https://huggingface.co/spaces/Yuanshi/OminiControl
github:https://github.com/Yuanshi9815/OminiControl
論文: https://arxiv.org/html/2411.15098v2
OminiControl の登場は、その効率的なパラメータ再利用メカニズムと強力な制御機能により、画像生成テクノロジーの大きな進歩を示し、芸術的創造と科学研究に新たな道を切り開きました。 今後、テクノロジーの継続的な発展に伴い、OminiControl はより多くの分野で重要な役割を果たし、より素晴らしい画像生成体験を私たちにもたらしてくれると信じています。