Google の研究チームは、ユーザーが専門的なソフトウェアやスキルを必要とせずに、画像内のオブジェクトの色、光沢、透明度などの材質特性を正確に制御できる画期的な画像編集テクノロジーである Alchemist をリリースしました。 Alchemist の核となるのは、データセットを合成し、Stable Diffusion 1.5 モデル アーキテクチャを変更することで、マテリアル パラメーターの微調整を実現する、微調整されたテキストから画像への生成モデルです。このテクノロジーは画像編集プロセスに革命を起こす可能性を秘めており、デザイナー、アーティスト、建築家などの専門家に強力なツールを提供します。
Google 研究チームは最近、画期的なテクノロジーである Alchemist を発表しました。このテクノロジーを使用すると、ユーザーは専門的な画像編集ソフトウェアやスキルを必要とせずに、色、光沢、透明度など、写真内のアイテムの素材特性を正確に編集できます。
Alchemist のテクノロジーの中核となるのは、微調整された Text-to-Image (T2I) 生成モデルです。研究チームは、合成データセットを作成し、Stable Diffusion1.5 モデル アーキテクチャを変更することで、材料パラメータの精密な制御を実現しました。
具体的には、研究者らはまずコンピューターグラフィックスと物理ベースのレンダリング技術を使用して大量の合成画像を生成した。これらの画像には、ランダムに選択されたマテリアル、カメラ アングル、照明条件を備えたさまざまな 3D モデルが含まれています。次に、これらの画像の単一の属性に変更を加え、編集強度が異なる複数のバージョンを生成しました。
この合成データを微調整することで、モデルは、アイテムの形状と画像の照明を変更せずに、指定されたマテリアル プロパティ、コンテキスト画像、指示のみを変更し、強度値を編集する方法を学習します。
この技術により、金属感を高めたり、透明度を調整したりするなど、オブジェクトの外観を効果的に変化させることができることが実験結果からわかっています。ユーザー調査では、このアプローチは、ベースラインのアプローチと比較して、フォトリアリズムとユーザーの好みの両方で大きな利点を達成しました。
この技術の応用の可能性は広いです。これは、インテリア デザイナーが塗り替えたときに部屋がどのように見えるかをプレビューするのに役立ち、建築家、アーティスト、デザイナーが新製品のデザイン スケッチを迅速に作成するのに役立ちます。さらに、編集効果が視覚的に一貫しているため、このテクノロジーは NeRF (神経放射線場) 再構成などの下流 3D タスクにも使用できます。
Alchemist テクノロジーはマテリアル編集において大きな進歩を遂げましたが、研究チームはいくつかの限界も指摘しました。たとえば、画像内の隠れた詳細の処理に関しては、モデルにはまだ改善の余地があります。
しかし、研究者らは、このテクノロジーの制御された素材編集の可能性に自信を持っています。さらなる研究と最適化により、Alchemist は画像編集の分野に革命をもたらし、複雑なマテリアル編集タスクをよりシンプルかつ直感的にできるようになると期待されています。
Google の Alchemist テクノロジーは、画像処理分野における人工知能のもう 1 つの大きな進歩を表しています。複雑な画像編集プロセスを簡素化するだけでなく、クリエイティブ業界に新たな可能性をもたらし、デザイン、アート、仮想現実などの複数の分野に大きな影響を与えることが期待されています。
プロジェクトアドレス:https://prafullsharma.net/alchemist/
Alchemist テクノロジーの出現は、画像編集における人工知能の分野における新たなマイルストーンを示します。その効率的かつ正確な素材編集機能は、クリエイティブ産業に新たな活力をもたらし、関連技術の継続的な開発と革新を促進するでしょう。