北京人工智慧學院的研究團隊發布了全新圖像生成模型OmniGen,它打破了傳統圖像生成工具的單一功能限制。不同於Stable Diffusion等模型,OmniGen在一個統一框架下整合了文本到圖像生成和圖像編輯等多種功能,堪稱「全能型選手」。 Downcodes小編將為您詳細解讀OmniGen的強大之處及其應用前景。
近日,北京人工智慧學院的研究團隊推出了一款名為OmniGen 的全新影像生成模型。
全能型圖片生成編輯選手
與以往的影像產生工具如Stable Diffusion ,OmniGen 最大的亮點是,它不再只是專注於單一任務,它具備了多種能力:
能在一個統一的框架下處理多種圖像生成任務能:包括從文本到圖像生成、圖像編輯,可以說是個全能選手。
這意味著,使用者只需提供簡單提示詞,就能控製圖像生成與精細編輯,而不再需要再使用ControlNet、IP-Adapter 這樣的插件對圖片進行細節調整!
這裡AIbase基於給出一個詳細老式相機創意拍照的效果提示詞,整體生成的效果細節感,滿滿,效果如下:
在多項測試中,OmniGen 的表現讓人驚艷,其在文字到圖像生成方面,它與市面上最先進的模型表現相當。在GenEval 基準測試中, OmniGen 僅使用了0.1億張影像進行訓練,而SD3使用了超過10億張影像。
影像編輯能力也同樣優秀,能夠精準把控源影像和編輯指令。例如在EMU-Edit 測試集上,超越了InstructPix2Pix 等知名模型,甚至與目前最先進的EMU-Edit 模型相當。
而在主體驅動生成的任務中,OmniGen 更是展現了超凡的個人化能力,適合藝術創作和廣告設計等多個領域。
試玩網址:https://huggingface.co/spaces/Shitao/OmniGen
論文:https://arxiv.org/html/2409.11340v1
OmniGen憑藉其強大的功能和高效的性能,為影像生成領域帶來了新的突破。其簡潔易用的操作方式,也降低了影像產生的門檻,為更多用戶提供了便利的創作工具。期待OmniGen在未來能有更廣泛的應用,推動人工智慧影像生成技術的進一步發展。