谷歌研究團隊發布了突破性影像編輯技術Alchemist,這項技術允許使用者精確控製影像中物件材質屬性,例如顏色、光澤度和透明度,無需專業軟體和技能。 Alchemist的核心是一個經過微調的文本到圖像生成模型,透過合成資料集和修改Stable Diffusion 1.5模型架構實現對材質參數的精細控制。這項技術有潛力徹底改變影像編輯流程,為設計師、藝術家和建築師等專業人士提供強大的工具。
谷歌研究團隊近日推出了一項突破性技術—Alchemist。這項技術使用戶能夠精確地編輯圖片中物品的材質屬性,如顏色、光澤度和透明度,而無需專業的影像編輯軟體和技能。
Alchemist技術的核心是一種經過微調的文字到圖像(Text-to-Image,T2I)生成模型。研究團隊透過創建合成資料集和修改Stable Diffusion1.5模型架構,實現了對材質參數的精細控制。
具體而言,研究人員首先利用電腦圖形學和基於物理的渲染技術產生了大量合成影像。這些影像包含各種3D模型,並隨機選擇材質、相機角度和光線條件。隨後,他們對這些影像的單一屬性進行改變,產生具有不同編輯強度的多個版本。
透過對這些合成資料進行微調,模型學會如何在給定上下文影像、指令和編輯強度值的情況下,僅改變指定的材質屬性,同時保持物品形狀和影像光照不變。
實驗結果顯示,該技術能夠有效地改變物品的外觀,例如增強金屬感或調整透明度。在使用者研究中,與基準方法相比,這種方法在照片真實感和使用者偏好方面都獲得了顯著優勢。
這項技術的應用前景廣闊。它可以幫助室內設計師預覽房間重新粉刷的效果,或協助建築師、藝術家和設計師快速製作新產品的設計草圖。此外,由於編輯效果在視覺上保持一致,此技術還可用於下游的3D任務,如NeRF(神經輻射場)重建。
儘管Alchemist技術在材質編輯方面取得了顯著進展,但研究團隊也指出了一些限制。例如,在處理影像中的隱藏細節時,模型仍有改進空間。
然而,研究人員對這項技術在可控材質編輯方面的潛力充滿信心。隨著進一步的研究和優化,Alchemist有望為影像編輯領域帶來革命性的變革,使複雜的材質編輯任務變得更加簡單和直觀。
谷歌的Alchemist技術代表了人工智慧在影像處理領域的另一個重大突破。它不僅簡化了複雜的影像編輯過程,也為創意產業提供了新的可能性,並有望在設計、藝術和虛擬實境等多個領域產生深遠影響。
專案網址:https://prafullsharma.net/alchemist/
Alchemist技術的出現,標誌著人工智慧在影像編輯領域的另一個里程碑。其高效率、精準的材質編輯能力,必將為創意產業帶來新的活力,並推動相關技術的持續發展與創新。